論文の概要: Segment-Aligned Policy Optimization for Multi-Modal Reasoning
- arxiv url: http://arxiv.org/abs/2605.01327v2
- Date: Thu, 07 May 2026 08:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.290602
- Title: Segment-Aligned Policy Optimization for Multi-Modal Reasoning
- Title(参考訳): 多重モード推論のためのセグメントアライメントポリシー最適化
- Authors: Lei Gao, Zhuoming Li, Mengxi Jia, Jiakang Yuan, Hongbo Sun, Hao Sun, Xuelong Li,
- Abstract要約: 本稿では、トークンや全シーケンスではなく、一貫性のある推論ステップをポリシー更新の基本単位として扱う新しい強化学習パラダイムを提案する。
代表的な推論ベンチマークの実験は、SAPOがトークンレベルおよびシーケンスレベルポリシー最適化手法を一貫して上回っていることを示している。
我々の研究は、強化学習の更新を推論の構造と整合させることの重要性を強調し、複雑な推論タスクにおけるより効率的でセマンティックに根ざした政策最適化の道を開く。
- 参考スコア(独自算出の注目度): 55.29606572822562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing reinforcement learning approaches for Large Language Models typically perform policy optimization at the granularity of individual tokens or entire response sequences. However, such formulations often misalign with the natural step-wise structure of reasoning processes, leading to suboptimal credit assignment and unstable training in multi-modal reasoning tasks. To bridge this gap, we propose Segment-Aligned Policy Optimization (SAPO), a novel reinforcement learning paradigm that treats coherent reasoning steps, rather than tokens or full sequences as fundamental units of policy update. SAPO introduces a step-wise Markov decision process abstraction over reasoning segments, accompanied by segment-level value estimation, advantage computation, and importance sampling mechanisms that are semantically aligned with reasoning boundaries. Experiments on representative reasoning benchmarks demonstrate that SAPO consistently outperforms token-level and sequence-level policy optimization methods, achieving significant accuracy improvements while exhibiting better training stability and value estimation consistency. Our work underscores the importance of aligning reinforcement learning updates with the intrinsic structure of reasoning, paving the way for more efficient and semantically grounded policy optimization in complex reasoning tasks. Codes and models will be released to ensure full reproducibility.
- Abstract(参考訳): 大規模言語モデルの既存の強化学習アプローチは、個々のトークンや応答シーケンス全体の粒度でポリシー最適化を行うのが一般的である。
しかし、そのような定式化はしばしば推論過程の自然な段階的構造と誤認され、多モーダル推論タスクにおける最適外クレジット割り当てと不安定なトレーニングにつながる。
このギャップを埋めるために、我々は、トークンや全シーケンスではなく、一貫性のある推論ステップをポリシー更新の基本単位として扱う新しい強化学習パラダイムであるSegment-Aligned Policy Optimization (SAPO)を提案する。
SAPOは、セグメンテーションセグメントに対するステップワイドなマルコフ決定プロセスの抽象化を導入し、セグメンテーションレベルの値推定、有利な計算、意味論的に推論境界に整合した重要サンプリング機構を伴っている。
代表的な推論ベンチマークの実験では、SAPOはトークンレベルとシーケンスレベルのポリシー最適化手法を一貫して上回り、より優れたトレーニング安定性と値推定整合性を示しながら、大幅な精度の向上を実現している。
我々の研究は、強化学習更新を推論の本質的な構造と整合させることの重要性を強調し、複雑な推論タスクにおけるより効率的でセマンティックに根ざした政策最適化の道を開く。
完全な再現性を保証するために、コードとモデルがリリースされる。
関連論文リスト
- Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models [49.65762241649762]
本稿では,K連続トークン列を統一的な意味行動として扱うフレームワークを提案する。
数学的推論と符号化ベンチマークの実験により、MPOは標準的なトークンレベルのポリシー勾配ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-16T01:28:38Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Multi-Objective Reward and Preference Optimization: Theory and Algorithms [3.316593788543852]
この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。
集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-12-11T12:51:21Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Contextually Entangled Gradient Mapping for Optimized LLM Comprehension [0.0]
Entually Entangled Gradient Mapping (CEGM)は、勾配最適化に対する新しいアプローチを導入する。
勾配を分離された数値エンティティではなく、コンテキスト依存の動的キャリアとして扱う。
提案手法は,既存の最適化戦略において重要なギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-01-28T11:50:35Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。