論文の概要: Your Self-Play Algorithm is Secretly an Adversarial Imitator: Understanding LLM Self-Play through the Lens of Imitation Learning
- arxiv url: http://arxiv.org/abs/2602.01357v1
- Date: Sun, 01 Feb 2026 17:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.738516
- Title: Your Self-Play Algorithm is Secretly an Adversarial Imitator: Understanding LLM Self-Play through the Lens of Imitation Learning
- Title(参考訳): 自己学習のレンズでLLMの自己再生を理解する「自己再生アルゴリズム」
- Authors: Shangzhe Li, Xuchao Zhang, Chetan Bansal, Weitong Zhang,
- Abstract要約: そこで本研究では,2ドル分散変動目標に基づく新たな自己演奏模倣微調整アルゴリズムを提案する。
様々な言語モデルファインタニングタスクの実験では、既存のセルフプレイ方式よりも一貫した改善が示されている。
- 参考スコア(独自算出の注目度): 29.069448000317035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-play post-training methods has emerged as an effective approach for finetuning large language models and turn the weak language model into strong language model without preference data. However, the theoretical foundations for self-play finetuning remain underexplored. In this work, we tackle this by connecting self-play finetuning with adversarial imitation learning by formulating finetuning procedure as a min-max game between the model and a regularized implicit reward player parameterized by the model itself. This perspective unifies self-play imitation and general preference alignment within a common framework. Under this formulation, we present a game-theoretic analysis showing that the self-play finetuning will converge to it's equilibrium. Guided by this theoretical formulation, we propose a new self-play imitation finetuning algorithm based on the $χ^2$-divergence variational objective with bounded rewards and improved stability. Experiments on various of language model finetuning tasks demonstrate consistent improvements over existing self-play methods and validate our theoretical insights.
- Abstract(参考訳): 自己学習のポストトレーニング手法は、大規模言語モデルを微調整し、弱い言語モデルを好みのデータを使わずに強力な言語モデルに変換するための効果的なアプローチとして現れてきた。
しかし、自己演奏ファインタニングの理論的基礎は未解明のままである。
本研究は,モデルとモデル自体がパラメータ化した正規化暗黙報酬プレーヤとの間のmin-maxゲームとしてファインタニング手順を定式化することにより,自己演奏ファインタニングと逆模倣学習を結びつけることで,この問題に対処する。
この観点は、共通のフレームワーク内での自己プレイの模倣と一般的な嗜好のアライメントを統一する。
この定式化の下では、自己プレーファインタニングが均衡に収束することを示すゲーム理論解析を提示する。
この理論的な定式化によって導かれるこのアルゴリズムは,有界報酬と安定性を向上した,$ ^2$-divergenceの変分目的に基づく新しい自己演奏模倣微調整アルゴリズムを提案する。
様々な言語モデルファインタニングタスクの実験は、既存のセルフプレイ手法よりも一貫した改善を示し、理論的な洞察を検証している。
関連論文リスト
- Self-Generative Adversarial Fine-Tuning for Large Language Models [34.82368594497859]
アライメントのための微調整大型言語モデル(LLM)は通常、人間のフィードバックから教師付き微調整や強化学習に依存する。
最近の自己再生および合成データアプローチは、この依存を減らすが、しばしば仮定や根拠のない自己評価に依存している。
本稿では,アライメントを生成逆ゲームとして定式化する,統合された微調整フレームワークである自己生成逆数LLM(SGALM)を提案する。
論文 参考訳(メタデータ) (2026-02-01T10:20:27Z) - Towards Understanding Self-play for LLM Reasoning [3.058685580689604]
我々は絶対零共振器のレンズを通して自己再生の訓練力学を解析する。
本研究では,パラメータ更新間隔,トークン分布のエントロピーダイナミクス,代案報酬関数について検討した。
論文 参考訳(メタデータ) (2025-10-31T00:41:37Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - A Comparison of Self-Play Algorithms Under a Generalized Framework [4.339542790745868]
マルチエージェント強化学習(英語版)でしばしば言及されるセルフプレイの概念は、形式的なモデルでは基礎付けられていない。
我々は,自己表現の意味をカプセル化した,明確に定義された仮定を持つ形式化された枠組みを提案する。
得られた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを測定する。
論文 参考訳(メタデータ) (2020-06-08T11:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。