論文の概要: IRIS: Interpolative Rényi Iterative Self-play for Large Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.20933v1
- Date: Wed, 22 Apr 2026 11:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.103591
- Title: IRIS: Interpolative Rényi Iterative Self-play for Large Language Model Fine-Tuning
- Title(参考訳): IRIS: 大規模言語モデルファインチューニングのための補間的Rényiイテレーティブセルフプレイ
- Authors: Wenjie Liao, Like Wu, Liangjie Zhao, Shihui Xu, Shigeru Fujimura,
- Abstract要約: セルフプレイの微調整により、人間のアノテーションを追加することなく、教師付き微調整を超えて大きな言語モデルを改善することができる。
IRIS(Interpolative Rényi Iterative Self-play)は,連続的に調整可能な目的を持った,レニイをベースとしたセルフプレイファインチューニングフレームワークである。
Zephyr-7BとQwen2.5-3Bを10のベンチマークで比較したところ、IRISはベースラインを改善し、平均スコアは44.57%に達した。
- 参考スコア(独自算出の注目度): 1.4474373238664187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-play fine-tuning enables large language models to improve beyond supervised fine-tuning without additional human annotations by contrasting annotated responses with self-generated ones. Many existing methods rely on a fixed divergence regime. SPIN is closely related to a KL-based regime, SPACE to a Jensen-Shannon-style objective via noise contrastive estimation, and SPIF to $χ^2$-regularized self-play. Since these divergences exhibit different strengths depending on the distributional gap between model and target, no single choice appears to provide favorable learning dynamics across training stages. We propose IRIS (Interpolative Rényi Iterative Self-play), a Rényi-based self-play fine-tuning framework with a continuously adjustable objective. IRIS decomposes into two independent tilted risk terms over annotated and synthetic data, with exponential importance weights controlled by the order parameter $α$. We show that several self-play objectives can be interpreted as limiting or representative regimes at particular values of $α$, providing a unified theoretical perspective on these methods. An adaptive order schedule further adjusts $α$ to the distributional gap, shifting from sharper importance weighting early in training to smoother refinement near convergence. Theoretically, we establish the fixed-point property of IRIS and analyze how $α$ controls gradient concentration. Experiments on Zephyr-7B and Qwen2.5-3B across ten benchmarks show that IRIS improves upon baselines, reaching 44.57\% average score with gains across iterations. In our setting, IRIS with only 26$k$ annotated samples surpasses standard supervised fine-tuning trained on the full 200$k$ dataset.
- Abstract(参考訳): セルフプレイファインチューニングは、注釈付き応答と自己生成の応答とを対比することにより、人間のアノテーションを追加することなく、教師付きファインチューニングを超えて、大きな言語モデルを改善することができる。
既存の多くの手法は、固定された分岐系に依存している。
SPINはKLベースのシステムと密接に関連しており、SPACEはノイズコントラスト推定によってJensen-Shannonスタイルの目的に近づき、SPIFは$ ^2$-regularized self-playとなる。
これらの発散は、モデルと対象間の分布的ギャップによって異なる強度を示すため、トレーニング段階全体にわたって良好な学習力学を提供するような単一の選択は存在しない。
IRIS(Interpolative Rényi Iterative Self-play)は,連続的に調整可能な目的を持った,レニイをベースとしたセルフプレイファインチューニングフレームワークである。
IRISは、アノテートおよび合成データに対して2つの独立した傾きリスク項に分解され、指数的重要性重みは順序パラメータ$α$で制御される。
いくつかの自己プレー目的を,特定の値が$α$の制限的あるいは代表的レギュレーションと解釈し,これらの手法に関する統一的な理論的視点を提供することを示す。
適応順序スケジュールは、トレーニングの初期段階において、より重要度の高い重み付けから、収束近くのスムーズな洗練へとシフトする、分散ギャップへの$αの調整をさらに行う。
理論的には、IRISの固定点特性を確立し、α$が勾配濃度を制御する方法を分析する。
Zephyr-7BとQwen2.5-3Bを10のベンチマークで比較したところ、IRISはベースラインを改善し、44.57\%の平均スコアに達した。
私たちの設定では、26$k$のアノテーション付きサンプルしか持たないIRISは、200$k$のデータセットでトレーニングされた標準的な教師付き微調整を超えています。
関連論文リスト
- Quantifying Self-Preservation Bias in Large Language Models [9.590157416396194]
本稿では,emphTwo-role Benchmark for Self-Preservationを紹介する。
役割アイデンティティが客観的ユーティリティを過度に上回る頻度を測定する。
我々は,低改善体制下では,モデルが解釈スラックを利用してポストホック合理化を行うのを観察する。
論文 参考訳(メタデータ) (2026-04-02T15:38:31Z) - Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret [71.69884486156359]
我々は, 累積的不完全化予算を用いて, エンフルティソースの不完全性選好からエピソードRLを考察した。
我々は,最良な登録行動を示す,後悔$tildeO(sqrtK/M+)$の統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-20T19:34:53Z) - Rough Path Signatures: Learning Neural RDEs for Portfolio Optimization [0.0]
本稿では,絡み合ったログシグナチャをニューラル粗微分方程式のバックボーンに結合する BSDE/2BSDE 解法を提案する。
CVaR方式の端末は左尾リスクをターゲットとし、オプションの2列(2BSDE)のヘッドはリスクに敏感な制御のための曲率推定を提供する。
d=200では、強いベースラインではCVaR(0.99)=9.80%、強いベースラインでは12.00-13.10%、最低HJB残基(0.011)に達し、Zとガンマでは最低RMSEが得られる。
論文 参考訳(メタデータ) (2025-10-12T18:02:12Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - RSPO: Regularized Self-Play Alignment of Large Language Models [54.593523736962]
Regularized Self-Play Policy Optimization (RSPO) は、事前のメソッドを統一し、様々な正規化ツールのプラグイン・アンド・プレイ統合を可能にする汎用的でモジュール化されたフレームワークである。
20ドル以上の微調整Mistral-7B-Instructモデルに関する実証研究により、前方KL偏差正規化は応答長を減少させる一方、逆KL偏差は生の利得率を著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-24T22:43:21Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。