論文の概要: Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models
- arxiv url: http://arxiv.org/abs/2401.01335v2
- Date: Mon, 12 Feb 2024 22:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:41:15.642093
- Title: Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models
- Title(参考訳): 弱い言語モデルを強い言語モデルに変換するセルフプレイ微調整
- Authors: Zixiang Chen and Yihe Deng and Huizhuo Yuan and Kaixuan Ji and
Quanquan Gu
- Abstract要約: 本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
- 参考スコア(独自算出の注目度): 56.84735912476625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harnessing the power of human-annotated data through Supervised Fine-Tuning
(SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we
delve into the prospect of growing a strong LLM out of a weak one without the
need for acquiring additional human-annotated data. We propose a new
fine-tuning method called Self-Play fIne-tuNing (SPIN), which starts from a
supervised fine-tuned model. At the heart of SPIN lies a self-play mechanism,
where the LLM refines its capability by playing against instances of itself.
More specifically, the LLM generates its own training data from its previous
iterations, refining its policy by discerning these self-generated responses
from those obtained from human-annotated data. Our method progressively
elevates the LLM from a nascent model to a formidable one, unlocking the full
potential of human-annotated demonstration data for SFT. Theoretically, we
prove that the global optimum to the training objective function of our method
is achieved only when the LLM policy aligns with the target data distribution.
Empirically, we evaluate our method on several benchmark datasets including the
HuggingFace Open LLM Leaderboard, MT-Bench, and datasets from Big-Bench. Our
results show that SPIN can significantly improve the LLM's performance across a
variety of benchmarks and even outperform models trained through direct
preference optimization (DPO) supplemented with extra GPT-4 preference data.
This sheds light on the promise of self-play, enabling the achievement of
human-level performance in LLMs without the need for expert opponents. Codes
are available at https://github.com/uclaml/SPIN.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) を通じて人間の注釈付きデータのパワーを損なうことは、Large Language Models (LLMs) の進展に重要である。
本稿では,人手による付加的なデータを取得することなく,弱いものから強力なLSMを成長させる可能性を探る。
教師付き微調整モデルから始まる自己再生fIne-tuNing (SPIN) と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
より具体的には、LSMは以前のイテレーションから独自のトレーニングデータを生成し、人間の注釈付きデータから得られたものから、これらの自己生成応答を識別することでポリシーを精査する。
提案手法は,LSMを生来のモデルから強大なモデルへと段階的に上昇させ,SFTのための人手による実演データの完全な可能性を解き放つ。
理論的には,本手法の学習目標関数に対するグローバル最適化は,llmポリシーが対象データ分布に適合する場合にのみ達成できることを実証する。
実験により,HuggingFace Open LLM LeaderboardやMT-Bench,Big-Benchのデータセットなど,いくつかのベンチマークデータセットについて評価を行った。
以上の結果から,SPINはGPT-4の嗜好データを補足した直接選好最適化(DPO)によりトレーニングしたモデルよりも優れた性能が得られることがわかった。
これは自己プレイの約束に光を当て、熟練した相手を必要とせずにLDMにおける人間レベルのパフォーマンスの達成を可能にする。
コードはhttps://github.com/uclaml/SPIN.comで入手できる。
関連論文リスト
- LLM-Ensemble: Optimal Large Language Model Ensemble Method for
E-commerce Product Attribute Value Extraction [13.154269540872995]
大規模言語モデル(LLM)は多くの属性抽出タスクにおいて最先端の性能を示す。
属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルと呼ばれる新しいアルゴリズムを提案する。
提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
論文 参考訳(メタデータ) (2024-02-29T23:03:19Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。