論文の概要: Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution
- arxiv url: http://arxiv.org/abs/2602.16154v1
- Date: Wed, 18 Feb 2026 02:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.499375
- Title: Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution
- Title(参考訳): マルチリスナーソフト実行による推論における忠実度と性能のバランス
- Authors: Nithin Sivakumaran, Shoubin Yu, Hyunji Lee, Yue Zhang, Ali Payani, Mohit Bansal, Elias Stengel-Eskin,
- Abstract要約: Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
- 参考スコア(独自算出の注目度): 79.98699884805636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) reasoning sometimes fails to faithfully reflect the true computation of a large language model (LLM), hampering its utility in explaining how LLMs arrive at their answers. Moreover, optimizing for faithfulness and interpretability in reasoning often degrades task performance. To address this tradeoff and improve CoT faithfulness, we propose Reasoning Execution by Multiple Listeners (REMUL), a multi-party reinforcement learning approach. REMUL builds on the hypothesis that reasoning traces which other parties can follow will be more faithful. A speaker model generates a reasoning trace, which is truncated and passed to a pool of listener models who "execute" the trace, continuing the trace to an answer. Speakers are rewarded for producing reasoning that is clear to listeners, with additional correctness regularization via masked supervised finetuning to counter the tradeoff between faithfulness and performance. On multiple reasoning benchmarks (BIG-Bench Extra Hard, MuSR, ZebraLogicBench, and FOLIO), REMUL consistently and substantially improves three measures of faithfulness -- hint attribution, early answering area over the curve (AOC), and mistake injection AOC -- while also improving accuracy. Our analysis finds that these gains are robust across training domains, translate to legibility gains, and are associated with shorter and more direct CoTs.
- Abstract(参考訳): チェーン・オブ・シント(CoT)推論は、時として大きな言語モデル(LLM)の真の計算を忠実に反映せず、その実用性を妨げ、LLMがどのようにその答えに到達するかを説明する。
さらに、推論における忠実さと解釈可能性の最適化は、しばしばタスクパフォーマンスを低下させる。
このトレードオフに対処し、CoTの忠実性を改善するために、多人数強化学習手法であるREMUL(Reasoning Execution by Multiple Listeners)を提案する。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
話者モデルは推論トレースを生成し、それは切り離され、トレースを「実行」するリスナーモデルのプールに渡され、応答までトレースを継続する。
話者は、聴取者に明らかな推論を生み出し、忠実さとパフォーマンスのトレードオフに対応するために、マスク付き監督された微調整によるさらなる正当性正規化を行う。
複数の推論ベンチマーク(BIG-Bench Extra Hard、MuSR、ZebraLogicBench、FOLIO)では、REMULは3つの忠実度 – ヒント属性、曲線上の早期回答領域(AOC)、ミスインジェクションAOC – を一貫して大幅に改善し、精度も向上している。
分析の結果、これらのゲインはトレーニング領域全体で堅牢であり、レジリエビリティゲインに変換され、より短く直接的なCoTと関連付けられていることがわかった。
関連論文リスト
- Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models [59.6715047267181]
小さな推論モデル(SRM)は、特に中間的推論ステップにおいて幻覚を起こす傾向がある。
オンライン強化学習に基づく既存の緩和手法は、結果に基づく報酬や粗粒度の連鎖評価に依存している。
本稿では、プロセス報酬モデルから、明示的な忠実度報酬を通じてステップレベルの監視を導入する、Fithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
論文 参考訳(メタデータ) (2026-02-05T17:15:12Z) - Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards [24.40159537923851]
音声大言語モデルにおけるロバストでスケーラブルな推論法を開発するための原理的手法を開発した。
MMAU 2.5 Pro と GPT-4o Audio をほぼ上回り、MMSU の推論タスクにおけるほぼ人間レベルの性能を向上する。
論文 参考訳(メタデータ) (2025-10-23T06:18:10Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - FRIT: Using Causal Importance to Improve Chain-of-Thought Faithfulness [7.721663297811698]
CoT(Chain-of- Thought)推論は,複雑なタスクにおける大規模言語モデルのパフォーマンス向上のための強力なツールとして登場した。
最近の研究は、推論ステップが最終回答に因果的に影響を与えず、不安定で信頼できないアウトプットを生み出していることを示している。
本稿では、因果一貫性のある推論を生成するためにモデルをトレーニングするスケーラブルなアライメント手法であるFhithful Reasoning via Intervention Training (FRIT)を紹介する。
論文 参考訳(メタデータ) (2025-09-10T07:07:17Z) - CoLD: Counterfactually-Guided Length Debiasing for Process Reward Models [29.95434387343843]
本稿では,3つのコンポーネントによる長さバイアスを緩和する統合フレームワークを提案する。
CoLDは一貫して報酬長相関を減少させ、ステップ選択の精度を改善し、より簡潔で論理的に妥当な推論を促進する。
論文 参考訳(メタデータ) (2025-07-21T15:07:59Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。