論文の概要: Causally-Enhanced Reinforcement Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.23095v1
- Date: Sat, 27 Sep 2025 04:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.033215
- Title: Causally-Enhanced Reinforcement Policy Optimization
- Title(参考訳): 因果強化強化政策最適化
- Authors: Xiangqi Wang, Yue Huang, Yujun Zhou, Xiaonan Luo, Kehan Guo, Xiangliang Zhang,
- Abstract要約: Causally-Enhanced Policy Optimization (CE-PO)は、因果一貫性のための異なるプロキシでポリシー最適化を強化する、ドロップイン報酬形成フレームワークである。
CE-POは、ヤコビアンに基づく感性によるモデル内部の影響を推定し、これらのシグナルを反実的に硬化させてニュアンスを抑えるとともに、結果のコヒーレンススコアをタスク精度フィードバックと融合させる。
4つのデータセットにわたる実験結果から、CE-POは平均で5.49%の精度(最大9.58%)を向上し、相関因果フリップや光対実編集による堅牢性を改善した。
- 参考スコア(独自算出の注目度): 36.523007244998695
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) trained with reinforcement objectives often achieve superficially correct answers via shortcut strategies, pairing correct outputs with spurious or unfaithful reasoning and degrading under small causal perturbations. We introduce Causally-Enhanced Policy Optimization (CE-PO), a drop-in reward-shaping framework that augments policy optimization with a differentiable proxy for causal coherence along the generation pathway from prompt (Z) to rationale (X) to answer (Y). CE-PO estimates model-internal influence with Jacobian-based sensitivities, counterfactually hardens these signals to suppress nuisance cues, and fuses the resulting coherence score with task-accuracy feedback via a Minkowski (power-mean) combiner, exposing a single tunable between accuracy and coherence trade-off. The unified reward integrates with PPO/GRPO without architectural changes. Across reasoning benchmarks and causal stress tests, CE-PO reduces reward hacking and unfaithful chain-of-thought while improving robustness to correlation-causation flips and light counterfactual edits, all at near-parity accuracy. Experimental results across 4 datasets show that CE-PO improves accuracy over baselines by 5.49% on average (up to 9.58%), while improving robustness to correlation-causation flips and light counterfactual edits.
- Abstract(参考訳): 強化目的で訓練された大規模言語モデル(LLM)は、しばしばショートカット戦略によって表面的に正しい答えを達成し、刺激的または不誠実な推論と正しい出力をペアリングし、小さな因果摂動の下で劣化させる。
因果コヒーレンス(因果コヒーレンス)の生成経路に沿って,プロンプト (Z) から理性 (X) への応答 (Y) を微分可能なプロキシを用いて,政策最適化を強化するドロップイン報酬形成フレームワークであるCausally-Enhanced Policy Optimization (CE-PO) を紹介する。
CE-POは、ヤコビアン系感性によるモデル内的影響を推定し、これらのシグナルを反実的に硬化させてニュアンスキューを抑えるとともに、結果のコヒーレンススコアをミンコフスキー(パワー平均)コンバインダを介してタスク精度フィードバックと融合させ、精度とコヒーレンストレードオフの間に単一の調整可能な点を露呈する。
統一報酬はアーキテクチャの変更なしにPPO/GRPOと統合される。
推論ベンチマークと因果ストレステスト全体で、CE-POは報酬のハッキングと不信心の連鎖を減らし、相関因果関係のフリップと軽い偽物編集に対する堅牢性を改善した。
4つのデータセットにわたる実験結果から、CE-POは平均で5.49%の精度(最大9.58%)を向上し、相関因果フリップや光対実編集による堅牢性を改善した。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Causally-Guided Automated Feature Engineering with Multi-Agent Reinforcement Learning [22.948935703534428]
我々は、AFEを因果的に誘導されたシーケンシャルな決定プロセスとして再編成する枠組みを導入する。
CAFEは、強力なAFEベースラインよりも最大7%改善し、コンバージェンスを低減し、競合する時間とターゲットを提供する。
これらの結果から, 硬い制約ではなく, 軟らかいインダクティブとして用いられる因果構造は, 自動機能工学の堅牢性と効率を大幅に向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-18T13:12:11Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Self-Aligned Reward: Towards Effective and Efficient Reasoners [16.740993145927774]
自己整合報酬 (Self-aligned reward, SAR) は、検証可能な報酬を補完し、推論精度と効率の両方を奨励する自己誘導信号である。
SARは, 正確さ, 正解スコアが冗長性よりも高く, 正解スコアが完全誤解よりも高いという, 解答品質を確実に区別することを示す。
論文 参考訳(メタデータ) (2025-09-05T20:39:43Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。