論文の概要: Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.05897v1
- Date: Thu, 05 Feb 2026 17:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.075789
- Title: Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models
- Title(参考訳): ハロシンモデルのための忠実度を考慮したステップレベル強化学習
- Authors: Shuo Nie, Hexuan Deng, Chao Wang, Ruiyu Fang, Xuebo Liu, Shuangyong Song, Yu Li, Min Zhang, Xuelong Li,
- Abstract要約: 小さな推論モデル(SRM)は、特に中間的推論ステップにおいて幻覚を起こす傾向がある。
オンライン強化学習に基づく既存の緩和手法は、結果に基づく報酬や粗粒度の連鎖評価に依存している。
本稿では、プロセス報酬モデルから、明示的な忠実度報酬を通じてステップレベルの監視を導入する、Fithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
- 参考スコア(独自算出の注目度): 59.6715047267181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models become smaller and more efficient, small reasoning models (SRMs) are crucial for enabling chain-of-thought (CoT) reasoning in resource-constrained settings. However, they are prone to faithfulness hallucinations, especially in intermediate reasoning steps. Existing mitigation methods based on online reinforcement learning rely on outcome-based rewards or coarse-grained CoT evaluation, which can inadvertently reinforce unfaithful reasoning when the final answer is correct. To address these limitations, we propose Faithfulness-Aware Step-Level Reinforcement Learning (FaithRL), introducing step-level supervision via explicit faithfulness rewards from a process reward model, together with an implicit truncated resampling strategy that generates contrastive signals from faithful prefixes. Experiments across multiple SRMs and Open-Book QA benchmarks demonstrate that FaithRL consistently reduces hallucinations in both the CoT and final answers, leading to more faithful and reliable reasoning. Code is available at https://github.com/Easy195/FaithRL.
- Abstract(参考訳): 大規模言語モデルがより小さく、より効率的になるにつれて、リソース制約のある環境でのチェーン・オブ・シント(CoT)推論を可能にするために、小さな推論モデル(SRM)が不可欠である。
しかし、それらは、特に中間的推論段階において、忠実な幻覚の傾向が強い。
オンライン強化学習に基づく既存の緩和方法は、結果に基づく報酬や粗大なCoT評価に依存しており、最終回答が正しければ不誠実な推論を不注意に補強することができる。
これらの制約に対処するために、プロセス報酬モデルから明示的な忠実度報酬を通じてステップレベルの監視を導入するFithfulness-Aware Step-Level Reinforcement Learning (FaithRL)を提案する。
複数のSRMとOpen-Book QAベンチマークの実験により、FaithRLはCoTと最終回答の両方の幻覚を一貫して減少させ、より忠実で信頼性の高い推論をもたらすことが示されている。
コードはhttps://github.com/Easy195/FaithRLで入手できる。
関連論文リスト
- Learning to Reason Faithfully through Step-Level Faithfulness Maximization [35.23601691819328]
Reinforcement Learning with Verifiable Rewards (RLVR) は大規模言語モデル(LLM)の性能を大幅に向上させた。
ほとんどのRLVRパイプラインは、粗末な結果ベースの報酬に依存しており、中間ステップに対するほとんど監督を提供していない。
本稿では,信頼の推論を直接最適化する汎用強化学習フレームワークであるFaithRLを提案する。
論文 参考訳(メタデータ) (2026-02-03T13:28:17Z) - P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering [51.04492568024515]
本稿では,プロセス報酬を微粒化するための新しいフレームワークである確率的プロセススーパービジョン(P2S)を紹介する。
P2Sは、個別の報酬モデルや人間に注釈を付けた推論ステップを必要とせずに、きめ細かいプロセス報酬を提供する。
論文 参考訳(メタデータ) (2026-01-28T14:35:20Z) - Step Potential Advantage Estimation: Harnessing Intermediate Confidence and Correctness for Efficient Mathematical Reasoning [25.562101968892833]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)における長い連鎖推論を導く
既存のアプローチでは、トークンレベルのエントロピーやシーケンスレベルの長さ制御を通じてRLVRを改善するが、推論の進捗を意味的に基礎づけたステップレベルの尺度は欠如している。
本研究では,潜在的利得を増幅し,潜在的利得をペナルティ化し,飽和後のペナルティを適用してタイムリーな終了を促す,詳細な信用割当手法であるステップ電位アドバンテージ推定(SPAE)を提案する。
論文 参考訳(メタデータ) (2026-01-07T11:36:01Z) - Journey Before Destination: On the importance of Visual Faithfulness in Slow Thinking [11.763473690046721]
推論の拡張された視覚言語モデルは、より大きな能力と透明性を約束する明確な思考の連鎖を生成する。
モデルは、視覚的に不誠実な中間段階によって正しい答えに達するか、あるいは最終的な予測において、合理的に失敗する。
本稿では, 推論連鎖の知覚段階が画像中に存在するか否かに着目し, 推論鎖の視覚的忠実度を評価次元として紹介する。
論文 参考訳(メタデータ) (2025-12-13T07:04:42Z) - Efficient Reasoning via Reward Model [24.105621725286497]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)の推論能力を高めることが示されている。
DeepSeek-R1 や OpenAI o1 のような LRM は、過剰または無関係な推論ステップを含む冗長な応答をしばしば生成する。
本稿では,結果報酬と簡潔度スコアとの間に明確な依存性を有する,CRF(Conciseness Reward Function)という新たな報酬定式化を導入する。
論文 参考訳(メタデータ) (2025-11-12T09:51:07Z) - Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models [26.88030285500965]
大きな推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、しばしば過剰な冗長性に悩まされる。
コンパクトな推論ステップを好んで, LRM をより効率的に推論するための RL フレームワークである textbfStep Pruner (SP) を導入する。
我々のステップアウェア報酬関数は、冗長なステップに対して罰則を課しながら正当性を優先し、誤った推論の強化を防ぐための誤った応答に対する報酬を控える。
論文 参考訳(メタデータ) (2025-10-04T13:24:26Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。