論文の概要: Trust-Region Adaptive Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.17636v1
- Date: Fri, 19 Dec 2025 14:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.435968
- Title: Trust-Region Adaptive Policy Optimization
- Title(参考訳): 信頼度適応型政策最適化
- Authors: Mingyu Su, Jian Guan, Yuxian Gu, Minlie Huang, Hongning Wang,
- Abstract要約: 後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 82.09255251747818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training methods, especially Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), play an important role in improving large language models' (LLMs) complex reasoning abilities. However, the dominant two-stage pipeline (SFT then RL) suffers from a key inconsistency: SFT enforces rigid imitation that suppresses exploration and induces forgetting, limiting RL's potential for improvements. We address this inefficiency with TRAPO (\textbf{T}rust-\textbf{R}egion \textbf{A}daptive \textbf{P}olicy \textbf{O}ptimization), a hybrid framework that interleaves SFT and RL within each training instance by optimizing SFT loss on expert prefixes and RL loss on the model's own completions, unifying external supervision and self-exploration. To stabilize training, we introduce Trust-Region SFT (TrSFT), which minimizes forward KL divergence inside a trust region but attenuates optimization outside, effectively shifting toward reverse KL and yielding stable, mode-seeking updates favorable for RL. An adaptive prefix-selection mechanism further allocates expert guidance based on measured utility. Experiments on five mathematical reasoning benchmarks show that TRAPO consistently surpasses standard SFT, RL, and SFT-then-RL pipelines, as well as recent state-of-the-art approaches, establishing a strong new paradigm for reasoning-enhanced LLMs.
- Abstract(参考訳): 特にSFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
しかし、支配的な2段階パイプライン(SFT、RL)は、重要な矛盾に悩まされる: SFTは、探索を抑え、忘れを誘発する厳密な模倣を強制し、改善のためのRLの可能性を制限する。
TRAPO(\textbf{T}rust-\textbf{R}egion \textbf{A}daptive \textbf{P}olicy \textbf{O}ptimization)は、各トレーニングインスタンス内でSFTとRLをインターリーブするハイブリッドフレームワークである。
トレーニングを安定させるために,信頼領域内でのKLの分岐を最小限に抑えつつ,最適化を効果的に逆KLにシフトし,RLに好適なモード探索更新を実現するTrust-Region SFT(TrSFT)を導入する。
適応プレフィックス選択機構は、測定されたユーティリティに基づいて専門家のガイダンスを割り当てる。
5つの数学的推論ベンチマークの実験により、TRAPOは標準のSFT、RL、SFT-then-RLパイプライン、および最近の最先端のアプローチを一貫して上回り、推論強化LLMのための強力な新しいパラダイムを確立した。
関連論文リスト
- Rethinking Expert Trajectory Utilization in LLM Post-training [35.018182540417236]
我々は,この景観を基盤として,プラスチック・シーリング・フレームワークを提案する。
逐次SFT-then-RLパイプラインを優れた標準として確立する。
本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-12-12T11:13:00Z) - Anchored Supervised Fine-Tuning [26.17356786243252]
大規模言語モデルのポストトレーニングには、教師付き微調整と強化学習のトレードオフが含まれる。
Dynamic Fine-Tuning (DFT)は、最近、トークンの確率でSFTの目標を再重み付けする、有望な中核として登場した。
我々は, 軽量KL正則化によるDFTの再重み付けを向上し, 安定性を確保しつつ, 密度を維持したAnchored Supervised Fine-Tuning (ASFT)を提案する。
論文 参考訳(メタデータ) (2025-09-28T08:58:12Z) - AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance [7.685078284407324]
大規模言語モデル(LLM)は通常、2段階のパイプライン(SFT)と強化学習(RL)による推論タスクのために微調整される。
最近の単段法では、SFTとRLを原理的に統一しようとするが、2つのパラダイムを動的にバランスさせるメカニズムが欠如している。
我々は,SFTの暗黙的,パスレベルの報酬とRLの明示的,結果に基づく報酬との最適バランスを学習する,新しいシングルステージアルゴリズムである textbf Meta Fine-Tuning (AMFT) を紹介する。
論文 参考訳(メタデータ) (2025-08-09T11:40:54Z) - The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs [66.17068546293487]
大規模視覚言語モデル(VLM)は、高度な推論を引き出すために、長いチェーン・オブ・シークレット(CoT)による微調整(SFT)や強化学習(RL)といったポストトレーニング技術を採用する傾向にある。
本稿では,複数のマルチモーダル推論ベンチマークを用いて,長いCoT SFTとRLの異なる役割と相互作用を系統的に検討する。
SFTは難解な問題に対して,奥行き,構造的推論によって性能を向上するが,冗長性を導入し,より単純な問題に対して性能を低下させる。
論文 参考訳(メタデータ) (2025-07-10T09:05:49Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。