論文の概要: StaRPO: Stability-Augmented Reinforcement Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.08905v1
- Date: Fri, 10 Apr 2026 03:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.659451
- Title: StaRPO: Stability-Augmented Reinforcement Policy Optimization
- Title(参考訳): StaRPO:安定化強化政策最適化
- Authors: Jinghan Zhang, Fengran Mo, Tharindu Cyril Weerasooriya, Ruimin Dai, Xiaoyan Han, Yanjie Fu, Dakuo Wang, Kunpeng Liu,
- Abstract要約: 強化学習は複雑な推論タスクにおける大規模言語モデルの精度を高めるのに有効である。
既存のポリシー最適化フレームワークはフィードバック信号として最終回答の正確性に依存している。
本稿では,安定度を最適化対象に明示的に組み込んだ,安定性向上型強化学習フレームワーク StaRPO を提案する。
- 参考スコア(独自算出の注目度): 41.96511339973761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is effective in enhancing the accuracy of large language models in complex reasoning tasks. Existing RL policy optimization frameworks rely on final-answer correctness as feedback signals and rarely capture the internal logical structure of the reasoning process. Consequently, the models would generate fluent and semantically relevant responses but logically inconsistent, structurally erratic, or redundant. To this end, we propose StaRPO, a stability-augmented reinforcement learning framework that explicitly incorporates reasoning stability into the optimization objective. Our StaRPO decomposes stability into two computable lightweight metrics: the Autocorrelation Function (ACF) to evaluate local step-to-step coherence, and Path Efficiency (PE) to evaluate global goal-directedness of the reasoning trajectory. These stability rewards are combined with task rewards to provide complementary and process-aware feedback. We validate the effectiveness of using ACF and PE rewards by showing their correlation with logic errors on two backbone models. Experiments on four reasoning benchmarks show that StaRPO consistently outperforms compared baselines and can enhance both final-answer accuracy and logical stability.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおける大規模言語モデルの精度向上に有効である。
既存のRLポリシー最適化フレームワークは、フィードバック信号として最終回答の正しさに依存しており、推論プロセスの内部論理構造を捉えることは滅多にない。
その結果、モデルは流動的でセマンティックな応答を生成するが、論理的に矛盾し、構造的に不安定で、冗長である。
そこで本研究では,安定度を最適化目標に明示的に組み込んだ,安定性向上型強化学習フレームワークである StaRPO を提案する。
我々のStaRPOは、局所的なステップ間コヒーレンスを評価するための自己相関関数(ACF)と、推論軌道のグローバルな目標指向性を評価するためのパス効率(PE)の2つの計算可能な軽量メトリクスに安定性を分解する。
これらの安定性報酬とタスク報酬を組み合わせることで、補完的およびプロセス対応のフィードバックを提供する。
2つのバックボーンモデル上での論理誤差との相関を示すことにより,ACFとPEの報奨の有効性を検証した。
4つの推論ベンチマークの実験により、StaRPOはベースラインよりも一貫して優れており、最終回答精度と論理安定性の両方を向上できることが示された。
関連論文リスト
- Structured Multi-Criteria Evaluation of Large Language Models with Fuzzy Analytic Hierarchy Process and DualJudge [1.9029675742486802]
大規模言語モデル(LLM)の効果的な評価は、従来の直接スコアリングが矛盾し、不透明な判断を下すため、依然として重要なボトルネックとなっている。
解析階層プロセス(AHP)をLCMに基づく評価に適用し,信頼度を考慮したファジィAHP拡張を提案する。
構造化されたアプローチは、評価を明確な基準に分解し、不確実性を認識したアグリゲーションを取り入れ、より校正された判断を生み出す。
論文 参考訳(メタデータ) (2026-04-04T14:07:37Z) - Stabilizing Policy Optimization via Logits Convexity [59.242732612484474]
モデルロジットに対する教師付き微調整損失の凸性は、安定したトレーニングを可能にする上で重要な役割を担っていることを示す。
そこで本研究では,ロジッツ・コンベックス最適化(Logits Convex Optimization, LCO)を提案する。
論文 参考訳(メタデータ) (2026-03-01T07:40:12Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。