論文の概要: Drop the Act: Probe-Filtered RL for Faithful Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2605.11467v1
- Date: Tue, 12 May 2026 03:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.54841
- Title: Drop the Act: Probe-Filtered RL for Faithful Chain-of-Thought Reasoning
- Title(参考訳): 法律を廃止する: 忠実な結束推論のためのRL
- Authors: Swapnil Parekh,
- Abstract要約: モデル推論は、社内ですでに約束している答えを合理化します。
ProFILは、コミット後の劇場を**11--100%*で減らし、忠実な違反を引き起こす(例えば、独立のクロード3.7ソンネット判事の下でLiveCodeBenchで+24pp)。
ProFILはまた、一致した長さのペナルティGRPOベースラインを破り、チェイン圧縮よりもセマンティックなコミットメント検出としてゲインを分離する。
- 参考スコア(独自算出の注目度): 1.3011345529764784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models post-hoc rationalize answers they have already committed to internally, producing chains of *reasoning theater*: deliberative-looking steps that contribute nothing to correctness. This wastes inference tokens, pollutes interpretability, and obscures what the model actually computed. We introduce **ProFIL** (**Pro**be-**Fil**tered Reinforcement Learning) to *reduce theater, increase chain-of-thought faithfulness, and shrink chain length* in a single, drop-in extension to Group Relative Policy Optimization (GRPO). A multi-head attention probe is trained *once* on the *frozen* base model to detect post-commitment steps from internal activations alone; during GRPO, rollouts whose probe score exceeds a threshold have their advantage zeroed. *Our central finding is that a probe trained on a frozen base, with verifier-derived labels and no human annotation, provides a stable signal that suppresses theater while resisting the RL-obfuscation failure mode predicted by prior work.* Across four reasoning domains (GSM8K, LiveCodeBench, ToolUse, MMLU-Redux) and two model architectures (Llama-8B, Qwen-7B), ProFIL reduces post-commitment theater by **11--100%**, raises faithful-fraction (e.g., +24pp on LiveCodeBench under an independent Claude 3.7 Sonnet judge), and shortens chains by 4--19%, all while preserving or improving task accuracy. ProFIL also beats a matched length-penalty GRPO baseline, isolating the gain as semantic commitment-detection rather than chain compression. Probe weights, training configurations, and rollouts are released across all four domains.
- Abstract(参考訳): Reasoning Modelは、社内ですでにコミットしている回答を合理化し、*推論する劇場*の連鎖を生み出します。
これは推論トークンを無駄にし、解釈可能性を汚染し、モデルが実際に何を計算したのかを曖昧にする。
本稿では、**ProFIL**(**Pro**be-**Fil**tered Reinforcement Learning)を劇場に導入し、グループ相対政策最適化(GRPO)への1つの拡張において、チェーンの忠実度を高め、チェーン長を縮小する。
マルチヘッドアテンションプローブは、*frozen*ベースモデル上で*once*をトレーニングし、内部アクティベーションのみからコミット後のステップを検出する。
※我々の中心的な発見は、検証者由来のラベルと人間のアノテーションのない冷凍基地で訓練されたプローブが、事前の作業によって予測されるRL難読化障害モードに抵抗しながら、劇場を抑える安定した信号を提供することである。
※4つの理由づけドメイン(GSM8K, LiveCodeBench, ToolUse, MMLU-Redux)と2つのモデルアーキテクチャ(Llama-8B, Qwen-7B)にまたがって、ProFILはコミット後の劇場を**11-100%*に減らし、忠実な屈折(例えば、独立クロード3.7ソンネット判事の下でLiveCodeBenchで+24pp)を高め、チェーンを4~19%短縮する。
ProFILはまた、一致した長さのペナルティGRPOベースラインを破り、チェイン圧縮よりもセマンティックなコミットメント検出としてゲインを分離する。
重み付け、トレーニング設定、ロールアウトは4つのドメインすべてにわたってリリースされている。
関連論文リスト
- Teaching LLMs Program Semantics via Symbolic Execution Traces [0.7046782561282057]
SV-COMP 2025上に構築された500 C 検証タスクの評価フレームワークを提案する。
6家族の14モデルを評価し,総合的精度の高いマスクが致命的な弱点であることを確認した。
わずか$sim$3,000のバグトレースと、推論時の連鎖推論を組み合わせることで、違反検出を17ポイント以上改善する。
論文 参考訳(メタデータ) (2026-05-07T13:01:06Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning [0.0]
強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは精度を60.72%から84.03%に改善した。
論文 参考訳(メタデータ) (2026-02-09T11:08:24Z) - Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models [59.6715047267181]
小さな推論モデル(SRM)は、特に中間的推論ステップにおいて幻覚を起こす傾向がある。
オンライン強化学習に基づく既存の緩和手法は、結果に基づく報酬や粗粒度の連鎖評価に依存している。
本稿では、プロセス報酬モデルから、明示的な忠実度報酬を通じてステップレベルの監視を導入する、Fithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
論文 参考訳(メタデータ) (2026-02-05T17:15:12Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文 参考訳(メタデータ) (2025-10-02T16:24:01Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。