Fugu-MT 論文翻訳(概要): LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

論文の概要: LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

arxiv url: http://arxiv.org/abs/2403.13372v2
Date: Thu, 21 Mar 2024 08:36:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 12:40:50.347859
Title: LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models
Title（参考訳）: LlamaFactory: 100以上の言語モデルの統一されたファインチューニング
Authors: Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo, Yongqiang Ma,
Abstract要約: LlamaFactoryは、最先端の効率的なトレーニング方法を統合した統合フレームワークである。これによってユーザは、内蔵のWeb UI LlamaBoardをコーディングすることなく、100以上のLLMの微調整を柔軟にカスタマイズできる。言語モデリングとテキスト生成タスクにおけるフレームワークの有効性と有効性を実証的に検証する。
参考スコア（独自算出の注目度）: 22.11662795656511
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficient fine-tuning is vital for adapting large language models (LLMs) to downstream tasks. However, it requires non-trivial efforts to implement these methods on different models. We present LlamaFactory, a unified framework that integrates a suite of cutting-edge efficient training methods. It allows users to flexibly customize the fine-tuning of 100+ LLMs without the need for coding through the built-in web UI LlamaBoard. We empirically validate the efficiency and effectiveness of our framework on language modeling and text generation tasks. It has been released at https://github.com/hiyouga/LLaMA-Factory and already received over 13,000 stars and 1,600 forks.
Abstract（参考訳）: 下流タスクに大規模言語モデル(LLM)を適用するためには、効率的な微調整が不可欠である。しかし、異なるモデルでこれらのメソッドを実装するには、自明な努力が必要である。 LlamaFactoryは、最先端の効率的なトレーニング方法を統合した統合フレームワークである。これによってユーザは、内蔵のWeb UI LlamaBoardをコーディングすることなく、100以上のLLMの微調整を柔軟にカスタマイズできる。言語モデリングとテキスト生成タスクにおけるフレームワークの有効性と有効性を実証的に検証する。 https://github.com/hiyouga/LLaMA-Factoryでリリースされ、すでに13,000以上の星と1600のフォークを受け取った。

関連論文リスト

Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。モデル入力に直接デモ例を埋め込む。長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文参考訳（メタデータ） (2025-05-26T10:49:44Z)
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:52:09Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
Super Tiny Language Models [3.8353434814956517]
本稿では,スーパーティニー言語モデル(STLM)に着目した一連の研究成果を紹介する。我々は,プーリング機構によるバイトレベルのトークン化,ウェイトタイリング,効率的なトレーニング戦略など,革新的な手法を探求する。我々の最終的な目標は、広範囲のアプリケーションに対して、高性能な言語モデルをよりアクセスしやすく、実用的なものにすることです。
論文参考訳（メタデータ） (2024-05-23T04:12:49Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。 XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文参考訳（メタデータ） (2022-10-26T17:16:52Z)
SMaLL-100: Introducing Shallow Multilingual Machine Translation Model for Low-Resource Languages [102.50127671423752]
本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
論文参考訳（メタデータ） (2022-10-20T22:32:29Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。