論文の概要: Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models
- arxiv url: http://arxiv.org/abs/2601.22513v2
- Date: Tue, 03 Feb 2026 07:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.815612
- Title: Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models
- Title(参考訳): 言語モデルの反復的アライメントのための理論的保証
- Authors: Shi Fu, Yingjie Wang, Shengchao Hu, Peng Wang, Dacheng Tao,
- Abstract要約: 自己回帰言語モデル(SRLM)は、外部からのフィードバックなしに反復的にアライメントを改善することに成功している。
本稿では,SRLMの厳密な理論的保証について述べる。
- 参考スコア(独自算出の注目度): 50.248686344277246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Rewarding Language Models (SRLMs) achieve notable success in iteratively improving alignment without external feedback. Yet, despite their striking empirical progress, the core mechanisms driving their capabilities remain unelucidated, leaving a critical gap in theoretical understanding. This paper provides the first rigorous theoretical guarantees for SRLMs. We first establish a lower bound that characterizes the fundamental limits of a single update step, revealing a critical dependence on the quality of the initial model. We then derive finite-sample error bounds for the full iterative paradigm, showing that performance improves at a rate of $\widetilde{\mathcal{O}}\left(1/\sqrt{n}\right)$ with sample size $n$. Crucially, our analysis reveals that the dependence on the initial model decays exponentially with the number of iterations $T$. This provides a formal explanation for why self-rewarding succeeds: it robustly overcomes poor initialization by steering the dynamics toward internal stability and consistency. Finally, we instantiate our theoretical framework for the linear softmax model class, yielding tailored guarantees that connect our high-level insights to practical model architectures.
- Abstract(参考訳): 自己回帰言語モデル(SRLM)は、外部からのフィードバックなしに反復的にアライメントを改善することに成功している。
しかし、その顕著な経験的進歩にもかかわらず、それらの能力を動かす中核的なメカニズムは未解明のままであり、理論的な理解に重大なギャップを残している。
本稿では,SRLMの厳密な理論的保証について述べる。
まず、1つの更新ステップの基本的限界を特徴付ける下位境界を設定し、初期モデルの品質に重大な依存があることを明らかにする。
次に、全反復パラダイムに対する有限サンプル誤差境界を導出し、サンプルサイズ$n$で$\widetilde{\mathcal{O}}\left(1/\sqrt{n}\right)$で性能が向上することを示す。
重要な分析では、初期モデルへの依存は、反復数$T$で指数関数的に減衰する。
これは、なぜ自己回帰が成功するのかという公式な説明を提供する。内部の安定性と一貫性に向けて力学を操ることで、初期化の貧弱さをしっかりと克服する。
最後に、線形ソフトマックスモデルクラスの理論的枠組みをインスタンス化し、我々の高レベルな洞察と実用的なモデルアーキテクチャを結びつけるようにした保証を得る。
関連論文リスト
- Do Reasoning Models Enhance Embedding Models? [48.43242995118735]
最先端の埋め込みモデルは、対照的な学習によって適応されたデコーダのみの大規模言語モデルバックボーンから、ますます派生している。
RLVRで調整したバックボーンの埋め込みモデルでは,同一のトレーニングレシピを適用した場合,ベースボーンに対して一貫した性能上の優位性は得られなかった。
論文 参考訳(メタデータ) (2026-01-29T02:48:34Z) - Autoregressivity in the Latent Space of a GP-VAE Language Model: An Empirical Ablation Study [0.0]
言語モデルは一般的にトークンに対する自己回帰的分解に依存します。
我々は,潜伏自己回帰が果たす役割について,体系的なアブレーション研究を行う。
論文 参考訳(メタデータ) (2025-12-30T09:23:09Z) - Incorporating Self-Rewriting into Large Language Model Reasoning Reinforcement [54.63337314382886]
自己書き起こしフレームワークを導入し、モデルが独自の推論テキストを書き直し、その後、書き直し推論から学習し、内部思考プロセスの品質を向上させる。
アルゴリズム設計において、モデルの一貫した正当性によって定義される「単純な」サンプルのみを書き換える選択的な書き換え手法を提案する。
モデルサイズが異なる多様なタスクの実験は、自己書き換えの有効性を検証する。
論文 参考訳(メタデータ) (2025-11-20T13:10:52Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Latent Principle Discovery for Language Model Self-Improvement [14.137106102563514]
本稿では, 自己補正設定で明示的にモデル化することで, 人間の嗜好応答を推論する潜在属性を抽出する手法を提案する。
提案手法は,LM自体から新たな原理を抽出し,発見した要素をクラスタリングにより解釈可能な集合に圧縮する。
複数の反復でアルゴリズムをブートストラップすることで、より小さな言語モデルを自己改善し、AlpacaEvalの勝率+8-10%、MT-Benchの平均+0.3、IFEvalの勝率+19-23%を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:20:18Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Unveiling and Addressing Pseudo Forgetting in Large Language Models [17.888328120571245]
従来のタスクのパフォーマンス劣化は、能力の喪失によるものではなく、適切なモデル能力の活性化のための命令の失敗によるものであることを示す。
Rationale-Guidance Difficulty based Replay (RGD-R) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T14:28:04Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。