論文の概要: From Faithfulness to Correctness: Generative Reward Models that Think Critically
- arxiv url: http://arxiv.org/abs/2509.25409v1
- Date: Mon, 29 Sep 2025 19:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.281224
- Title: From Faithfulness to Correctness: Generative Reward Models that Think Critically
- Title(参考訳): 信仰から正しさへ:批判的に考える生成的リワードモデル
- Authors: Qiyao Ma, Yunsheng Shi, Hongtao Tian, Chao Wang, Weiming Chang, Ting Yao,
- Abstract要約: 本稿では,批判的思考能力を持つ報酬モデルを実現するために,思考監督リワードモデル(TRM)を提案する。
問合せ、回答、支援文書が与えられたとき、TRMはまず各回答文の忠実さを支援文書に評価し、その後、文レベルの正しさを評価するための推論ステップを適用する。
- 参考スコア(独自算出の注目度): 40.07140704454647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Through reinforcement learning with verifiable rewards (RLVR), large language models have achieved substantial progress in domains with easily verifiable outcomes, such as mathematics and coding. However, when applied to more complex tasks like open-domain question answering, RLVR faces significant challenges due to the difficulty of verifying correctness. The nuanced and ambiguous nature of real-world knowledge makes it difficult to reliably evaluate correctness in these settings, necessitating further abilities that extend beyond mere logical consistency to encompass an understanding and assessment of both external and internal knowledge. Recent work has primarily focused on improving faithfulness, defined as semantic alignment with supporting documents, which can cause models to rely excessively on external sources and diminish their capacity for critical assessment. To address this, we propose the Thinking-supervised Reward Model (TRM), which incorporates sentence-level thinking supervision to endow reward models with critical thinking abilities. Given a query, answer, and supporting documents, TRM first assesses the faithfulness of each answer sentence to the supporting documents, and then applies a reasoning step to evaluate sentence-level correctness. By structuring reward modeling as a sequence of faithfulness, reasoning, and correctness evaluations, TRM encourages models to critically assess and leverage both external and internal knowledge. Experiments on reward signals demonstrate that TRM substantially improves the identification of incorrect sentences, and incorporating TRM into policy optimization leads to significant gains in both answer correctness and usefulness.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RLVR)を通じて、大きな言語モデルは、数学やコーディングなど、容易に検証可能な結果を持つ領域において、かなりの進歩を遂げた。
しかし、オープンドメインの質問応答のようなより複雑なタスクに適用すると、RLVRは正確性を検証するのが難しいため、重大な課題に直面します。
現実世界の知識の曖昧で曖昧な性質は、これらの設定における正確さを確実に評価することを難しくし、論理的一貫性を超えて、外部知識と内部知識の両方の理解と評価を包含する必要がある。
最近の研究は、主に忠実性の改善に焦点を当てており、サポートドキュメントとのセマンティックアライメントとして定義されているため、モデルが外部ソースに過度に依存し、批判的評価の能力が低下する可能性がある。
そこで本稿では,批判的思考能力を持つ報酬モデルを実現するために,文レベルの思考指導を取り入れた思考監督リワードモデル(TRM)を提案する。
問合せ、回答、支援文書が与えられたとき、TRMはまず各回答文の忠実さを支援文書に評価し、その後、文レベルの正しさを評価するための推論ステップを適用する。
報酬モデリングを忠実さ、推論、正当性評価のシーケンスとして構成することにより、TRMはモデルに対して、外部知識と内部知識の両方を批判的に評価し、活用することを奨励する。
報酬信号の実験により、TRMは誤文の同定を大幅に改善し、ポリシー最適化にTRMを組み込むことで、回答の正しさと有用性の両方において大きな利益をもたらすことが示された。
関連論文リスト
- Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。
我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。
CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文 参考訳(メタデータ) (2025-08-04T20:33:58Z) - Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。