論文の概要: Triplets Better Than Pairs: Towards Stable and Effective Self-Play Fine-Tuning for LLMs
- arxiv url: http://arxiv.org/abs/2601.08198v1
- Date: Tue, 13 Jan 2026 04:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.054934
- Title: Triplets Better Than Pairs: Towards Stable and Effective Self-Play Fine-Tuning for LLMs
- Title(参考訳): LLMのための安定的で効果的なセルフプレイファインチューニングを目指して
- Authors: Yibo Wang, Hai-Long Sun, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Lijun Zhang,
- Abstract要約: エキスパートアノテートデータが少ないダウンストリームアプリケーションに大規模な言語モデルを適用するために、セルフプレイの微調整を提案する。
本稿では,Triplet-based Self-Play fIne-tuNing (T-SPIN)法を提案する。
- 参考スコア(独自算出の注目度): 38.491469059068486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, self-play fine-tuning (SPIN) has been proposed to adapt large language models to downstream applications with scarce expert-annotated data, by iteratively generating synthetic responses from the model itself. However, SPIN is designed to optimize the current reward advantages of annotated responses over synthetic responses at hand, which may gradually vanish during iterations, leading to unstable optimization. Moreover, the utilization of reference policy induces a misalignment issue between the reward formulation for training and the metric for generation. To address these limitations, we propose a novel Triplet-based Self-Play fIne-tuNing (T-SPIN) method that integrates two key designs. First, beyond current advantages, T-SPIN additionally incorporates historical advantages between iteratively generated responses and proto-synthetic responses produced by the initial policy. Even if the current advantages diminish, historical advantages remain effective, stabilizing the overall optimization. Second, T-SPIN introduces the entropy constraint into the self-play framework, which is theoretically justified to support reference-free fine-tuning, eliminating the training-generation discrepancy. Empirical results on various tasks demonstrate not only the superior performance of T-SPIN over SPIN, but also its stable evolution during iterations. Remarkably, compared to supervised fine-tuning, T-SPIN achieves comparable or even better performance with only 25% samples, highlighting its effectiveness when faced with scarce annotated data.
- Abstract(参考訳): 近年,自己演奏ファインチューニング (SPIN) は,モデル自体から合成応答を反復的に生成することにより,専門家による注釈付きデータが少ないダウンストリームアプリケーションに大規模言語モデルを適用することが提案されている。
しかしSPINは、手元にある合成応答に対する注釈付き応答の現在の報酬の利点を最適化するために設計されており、これは繰り返しの間に徐々に消え、不安定な最適化をもたらす。
さらに、基準政策の活用により、トレーニングの報酬定式化と生成の基準との相違が生じる。
これらの制約に対処するために,Triplet をベースとした新しいセルフプレイ fIne-tuNing (T-SPIN) 法を提案する。
第一に、現在の利点を超えて、T-SPINは、反復的に生成された応答と初期ポリシーによって生成された原始合成応答の間の歴史的な利点を取り入れている。
現在の利点が減っても、歴史的利点は依然として有効であり、全体的な最適化は安定している。
第2に、T-SPINは自己プレイフレームワークにエントロピー制約を導入する。
様々なタスクにおける実験結果は、SPINよりもT-SPINの方が優れた性能を示すだけでなく、イテレーション中に安定した進化を示す。
注目すべきは、教師付き微調整と比較して、T-SPINは25%のサンプルで同等またはそれ以上の性能を達成し、注釈付きデータが少ない場合の有効性を強調していることだ。
関連論文リスト
- GDEPO: Group Dual-dynamic and Equal-right-advantage Policy Optimization with Enhanced Training Data Utilization for Sample-Constrained Reinforcement Learning [14.111530312590531]
ATP(Automated Theorem Proving)は人工知能(AI)の基本課題である
我々はGDEPO(Group Dual-dynamic and Equal-right-Advantage Policy Optimization)を提案する。
GDEPOには3つのコアメカニズムがある: 1) 有効証明が見つかるまで無効なバッチを再サンプリングする動的追加サンプリング、2) 優位関数の符号をその大きさ(補助的な報酬によって変調される)から切り離して安定かつ正しいポリシー更新を保証する、3) 動的追加イテレーション、そして、最初は失敗するが、最終的にはサンプルを成功させ、挑戦的なケースでの学習を加速する。
論文 参考訳(メタデータ) (2026-01-11T07:34:41Z) - Linear Preference Optimization: Decoupled Gradient Control via Absolute Regularization [13.97375970293678]
DPO(Direct Preference Optimization)は、その単純さと訓練安定性から、オフライン優先最適化アルゴリズムとして広く使われている。
3つの重要なイノベーションを特徴とする新しいアライメントフレームワークであるLinear Preference Optimization (LPO)を提案する。
まず,対数シグモイド関数を絶対差分損失に置き換え,最適化力学を分離することで勾配デカップリングを導入する。
第2に、選択された応答品質を維持するために、オフセット制約と正の正則化項を組み合わせることで安定性を向上させる。
第3に、直感的な推定を伴う勾配分離と、その相対確率の降下を線形に制御する調整可能な係数を用いて、制御可能な拒絶抑制を実装した。
論文 参考訳(メタデータ) (2025-08-20T10:17:29Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss [26.860139372768092]
本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。
提案するBNF損失は, 対意に対照的な損失が不要となる。
我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2024-10-07T08:44:04Z) - Interactive Test-Time Adaptation with Reliable Spatial-Temporal Voxels for Multi-Modal Segmentation [56.70910056845503]
マルチモーダルテストタイム適応(MM-TTA)は、補完的なマルチモーダル入力をオンライン形式で活用することにより、ラベルのないターゲットドメインにモデルを適応させる。
従来のMM-TTA法は, 時間的不整合によるフレームワイドの不安定な予測と, 信頼度誘導の仮定に反する不正確な予測の2つの大きな限界に悩まされていた。
Latte++は、より情報的な幾何学的対応によって不安定なフレーム単位の予測をより抑制し、対話型テスト時間適応(ITTA)は、努力を伴わない人間のフィードバックを促進するフレキシブルなアドオンである。
論文 参考訳(メタデータ) (2024-03-11T06:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。