論文の概要: Causally-Enhanced Reinforcement Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.23095v1
- Date: Sat, 27 Sep 2025 04:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.033215
- Title: Causally-Enhanced Reinforcement Policy Optimization
- Title(参考訳): 因果強化強化政策最適化
- Authors: Xiangqi Wang, Yue Huang, Yujun Zhou, Xiaonan Luo, Kehan Guo, Xiangliang Zhang,
- Abstract要約: Causally-Enhanced Policy Optimization (CE-PO)は、因果一貫性のための異なるプロキシでポリシー最適化を強化する、ドロップイン報酬形成フレームワークである。
CE-POは、ヤコビアンに基づく感性によるモデル内部の影響を推定し、これらのシグナルを反実的に硬化させてニュアンスを抑えるとともに、結果のコヒーレンススコアをタスク精度フィードバックと融合させる。
4つのデータセットにわたる実験結果から、CE-POは平均で5.49%の精度(最大9.58%)を向上し、相関因果フリップや光対実編集による堅牢性を改善した。
- 参考スコア(独自算出の注目度): 36.523007244998695
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) trained with reinforcement objectives often achieve superficially correct answers via shortcut strategies, pairing correct outputs with spurious or unfaithful reasoning and degrading under small causal perturbations. We introduce Causally-Enhanced Policy Optimization (CE-PO), a drop-in reward-shaping framework that augments policy optimization with a differentiable proxy for causal coherence along the generation pathway from prompt (Z) to rationale (X) to answer (Y). CE-PO estimates model-internal influence with Jacobian-based sensitivities, counterfactually hardens these signals to suppress nuisance cues, and fuses the resulting coherence score with task-accuracy feedback via a Minkowski (power-mean) combiner, exposing a single tunable between accuracy and coherence trade-off. The unified reward integrates with PPO/GRPO without architectural changes. Across reasoning benchmarks and causal stress tests, CE-PO reduces reward hacking and unfaithful chain-of-thought while improving robustness to correlation-causation flips and light counterfactual edits, all at near-parity accuracy. Experimental results across 4 datasets show that CE-PO improves accuracy over baselines by 5.49% on average (up to 9.58%), while improving robustness to correlation-causation flips and light counterfactual edits.
- Abstract(参考訳): 強化目的で訓練された大規模言語モデル(LLM)は、しばしばショートカット戦略によって表面的に正しい答えを達成し、刺激的または不誠実な推論と正しい出力をペアリングし、小さな因果摂動の下で劣化させる。
因果コヒーレンス(因果コヒーレンス)の生成経路に沿って,プロンプト (Z) から理性 (X) への応答 (Y) を微分可能なプロキシを用いて,政策最適化を強化するドロップイン報酬形成フレームワークであるCausally-Enhanced Policy Optimization (CE-PO) を紹介する。
CE-POは、ヤコビアン系感性によるモデル内的影響を推定し、これらのシグナルを反実的に硬化させてニュアンスキューを抑えるとともに、結果のコヒーレンススコアをミンコフスキー(パワー平均)コンバインダを介してタスク精度フィードバックと融合させ、精度とコヒーレンストレードオフの間に単一の調整可能な点を露呈する。
統一報酬はアーキテクチャの変更なしにPPO/GRPOと統合される。
推論ベンチマークと因果ストレステスト全体で、CE-POは報酬のハッキングと不信心の連鎖を減らし、相関因果関係のフリップと軽い偽物編集に対する堅牢性を改善した。
4つのデータセットにわたる実験結果から、CE-POは平均で5.49%の精度(最大9.58%)を向上し、相関因果フリップや光対実編集による堅牢性を改善した。
関連論文リスト
- Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Self-Aligned Reward: Towards Effective and Efficient Reasoners [16.740993145927774]
自己整合報酬 (Self-aligned reward, SAR) は、検証可能な報酬を補完し、推論精度と効率の両方を奨励する自己誘導信号である。
SARは, 正確さ, 正解スコアが冗長性よりも高く, 正解スコアが完全誤解よりも高いという, 解答品質を確実に区別することを示す。
論文 参考訳(メタデータ) (2025-09-05T20:39:43Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。