論文の概要: Reward Models Identify Consistency, Not Causality
- arxiv url: http://arxiv.org/abs/2502.14619v1
- Date: Thu, 20 Feb 2025 14:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 22:18:11.705872
- Title: Reward Models Identify Consistency, Not Causality
- Title(参考訳): 因果関係ではなく一貫性を識別する逆モデル
- Authors: Yuhui Xu, Hanze Dong, Lei Wang, Caiming Xiong, Junnan Li,
- Abstract要約: 最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
- 参考スコア(独自算出の注目度): 54.987590763737145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) play a crucial role in aligning large language models (LLMs) with human preferences and enhancing reasoning quality. Traditionally, RMs are trained to rank candidate outputs based on their correctness and coherence. However, in this work, we present several surprising findings that challenge common assumptions about RM behavior. Our analysis reveals that state-of-the-art reward models prioritize structural consistency over causal correctness. Specifically, removing the problem statement has minimal impact on reward scores, whereas altering numerical values or disrupting the reasoning flow significantly affects RM outputs. Furthermore, RMs exhibit a strong dependence on complete reasoning trajectories truncated or incomplete steps lead to significant variations in reward assignments, indicating that RMs primarily rely on learned reasoning patterns rather than explicit problem comprehension. These findings hold across multiple architectures, datasets, and tasks, leading to three key insights: (1) RMs primarily assess coherence rather than true reasoning quality; (2) The role of explicit problem comprehension in reward assignment is overstated; (3) Current RMs may be more effective at ranking responses than verifying logical validity. Our results suggest a fundamental limitation in existing reward modeling approaches, emphasizing the need for a shift toward causality-aware reward models that go beyond consistency-driven evaluation.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)を人間の好みと整合させ、推論品質を高める上で重要な役割を担います。
伝統的に、RMは、その正確さとコヒーレンスに基づいて、候補出力をランク付けするように訓練されている。
しかし,本研究では,RMの挙動に関する一般的な仮定に挑戦するいくつかの驚くべき知見を提示する。
解析の結果,現状の報酬モデルでは因果正当性よりも構造的一貫性が優先されていることが明らかとなった。
具体的には,問題文の削除が報酬スコアに与える影響を最小に抑える一方で,数値を変化させたり,推論フローを乱したりすると,RM出力に大きく影響する。
さらに、RMは完全な推論の軌道に強く依存しており、不完全なステップは報酬の割り当てに大きな変化をもたらし、RMは明示的な問題理解よりも学習された推論パターンに依存していることを示している。
これらの結果は複数のアーキテクチャ、データセット、タスクにまたがって行われ、(1)RMは真の推論品質よりもコヒーレンスを主に評価する、(2)報酬割り当てにおける明示的な問題理解の役割は過大評価される、(3)現在のRMは論理的妥当性の検証よりも応答のランク付けに効果的である、という3つの重要な洞察につながっている。
この結果から,既存の報酬モデルアプローチの基本的な限界が示唆され,一貫性に基づく評価以上の因果関係を考慮した報酬モデルへの移行の必要性が強調された。
関連論文リスト
- ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
Process Reward Model (PRM) は報酬のハッキングに悩まされており、最良の中間ステップを特定することは不可能である。
個人と連続的な推論のステップを評価する新しい報酬モデル手法である階層リワードモデル(HRM)を提案する。
HRMは、特に前の推論ステップが間違っていた場合に、推論コヒーレンスと自己回帰を評価するのに優れる。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning [32.850036320802474]
本稿では,OOD問題に対処するための新しいフレームワークであるRetrieval-Augmented Process Reward Model(RetrievalPRM)を紹介する。
RetrievalPRMは2段階の検索強化機構を利用して、セマンティックに類似した質問やステップをウォームアップとして検索する。
我々の実験では、RetrievalPRMは複数の実世界のデータセットで既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-20T08:40:09Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z) - Context De-confounded Emotion Recognition [12.037240778629346]
コンテキストアウェア感情認識(CAER)は、対象者の感情状態を文脈情報で知覚することを目的としている。
長年見過ごされてきた問題は、既存のデータセットのコンテキストバイアスが感情状態のかなり不均衡な分布をもたらすことである。
本稿では、そのようなバイアスの影響からモデルを切り離し、CAERタスクにおける変数間の因果関係を定式化する因果関係に基づく視点を提供する。
論文 参考訳(メタデータ) (2023-03-21T15:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。