論文の概要: Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty
- arxiv url: http://arxiv.org/abs/2604.10072v1
- Date: Sat, 11 Apr 2026 07:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.82342
- Title: Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty
- Title(参考訳): Reason Only When Needed: モデル内不確実性による効率的な生成的リワードモデリング
- Authors: Chao Xue, Yao Wang, Mengqiao Liu, Di Liang, Xingsheng Han, Peiyang Liu, Xianjie Wu, Chenyao Lu, Lei Jiang, Yu Lu, Haibo Shi, Shuang Liang, Minlong Peng, Flora D. Salim,
- Abstract要約: E-GRMはモデル内不確実性に基づく効率的な生成報酬モデリングフレームワークである。
E-GRMは推論コストを大幅に削減し,解答精度を継続的に向上することを示した。
- 参考スコア(独自算出の注目度): 33.04999074297977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in the Generative Reward Model (GRM) have demonstrated its potential to enhance the reasoning abilities of LLMs through Chain-of-Thought (CoT) prompting. Despite these gains, existing implementations of GRM suffer from two critical limitations. First, CoT prompting is applied indiscriminately to all inputs regardless of their inherent complexity. This introduces unnecessary computational costs for tasks amenable to fast, direct inference. Second, existing approaches primarily rely on voting-based mechanisms to evaluate CoT outputs, which often lack granularity and precision in assessing reasoning quality. In this paper, we propose E-GRM, an efficient generative reward modeling framework grounded in model-internal uncertainty. E-GRM leverages the convergence behavior of parallel model generations to estimate uncertainty and selectively trigger CoT reasoning only when needed, without relying on handcrafted features or task-dependent signals. To improve reward fidelity, we introduce a lightweight discriminative scorer trained with a hybrid regression--ranking objective to provide fine-grained evaluation of reasoning paths. Experiments on multiple reasoning benchmarks show that E-GRM substantially reduces inference cost while consistently improving answer accuracy, demonstrating that model-internal uncertainty is an effective and general signal for efficient reasoning-aware reward modeling.
- Abstract(参考訳): 近年のジェネレーティブ・リワード・モデル(GRM)の進歩は, チェイン・オブ・ソート(CoT)によるLCMの推論能力を高める可能性を示している。
これらの進歩にもかかわらず、既存のGRMの実装には2つの限界がある。
第一に、CoTプロンプトは固有の複雑さに関係なく全ての入力に無差別に適用される。
これにより、高速で直接的な推論が可能なタスクに対する不要な計算コストがもたらされる。
第二に、既存のアプローチは主にCoT出力を評価するための投票ベースのメカニズムに依存しており、推論品質の評価には粒度と精度が欠けていることが多い。
本稿では,モデル内不確実性に基づく効率的な生成報酬モデルであるE-GRMを提案する。
E-GRMは並列モデル生成の収束挙動を利用して不確実性を推定し、手作りの特徴やタスク依存信号に頼ることなく、必要に応じてCoT推論を選択的にトリガーする。
報酬の忠実度を向上させるために,ハイブリッド回帰目標を用いた軽量識別スコアラを導入し,推論経路のきめ細かい評価を行う。
複数の推論ベンチマークの実験により、E-GRMは解答精度を一貫して改善しつつ、推論コストを大幅に削減し、モデル内部の不確実性は効率的な推論認識報酬モデリングのための有効で一般的な信号であることを示した。
関連論文リスト
- ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training [11.579744186304895]
ジェネレーティブ報酬モデル(GRM)は、大規模言語モデル(LLM)と人間の嗜好を整合させるための有望なアプローチとして登場した。
我々は,人間のアノテーションを使わずに,効果的かつ安定したGRMトレーニングを可能にする自己学習フレームワークであるConsistRMを提案する。
論文 参考訳(メタデータ) (2026-04-08T18:25:02Z) - When Is Thinking Enough? Early Exit via Sufficiency Assessment for Efficient Reasoning [52.21239821135325]
本稿では、効率的な推論のための新しいフレームワークDTSR(Dynamic Thought Sufficiency in Reasoning)を紹介する。
人間のメタ認知にインスパイアされたDTSRは、リフレクションシグナルモニタリングとThought Sufficiency Checkという2つの段階で動作する。
DTSRは推論長を28.9%から34.9%削減し、性能損失を最小限に抑えている。
論文 参考訳(メタデータ) (2026-04-08T07:56:28Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms [20.241519889633285]
大規模言語モデル(LLM)は、推論パラダイムが重要な役割を果たす推論システムとして、ますます多くデプロイされている。
我々は、直接単モデル生成、CoT拡張単モデル推論、代表MASなど、推論パラダイムを包括的かつ統一的に評価する。
MIMeBenchは、2つの基本的な未探索セマンティック機能をターゲットにした新しいオープンエンドベンチマークである。
論文 参考訳(メタデータ) (2026-01-19T17:23:45Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Linking Process to Outcome: Conditional Reward Modeling for LLM Reasoning [30.302863491794543]
Process Reward Models (PRM) は、最終回答に向けてステップバイステップの推論を導くことを目的としている。
既存のPRMは、ステップ間の依存関係をキャプチャしたり、プロセスの報酬を最終的な結果と整合させるのに失敗します。
本稿では,時間的プロセスとして推論をフレーム化して正解を導く条件付きリワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-09-30T17:38:45Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。