論文の概要: Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively
- arxiv url: http://arxiv.org/abs/2506.00396v1
- Date: Sat, 31 May 2025 05:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.6373
- Title: Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively
- Title(参考訳): LLMのコスト効果を考慮した投機的リワードモデルによる意思決定能力の向上
- Authors: Jiawei Gu, Shangsong Liang,
- Abstract要約: 本稿では,検索戦略の費用対効果を評価するために3E基準を導入する。
本稿では,既存の検索戦略とシームレスに統合するプラグイン・アンド・プレイ・フレームワークであるSpeculative Reward Model (SRM)を提案する。
実験の結果,RMは,有効性を保ちながら,従来の検索フレームワークの1/10までコストを削減できることがわかった。
- 参考スコア(独自算出の注目度): 13.40488551654639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective decision-making in Large Language Models (LLMs) is essential for handling intricate tasks. However, existing approaches prioritize performance but often overlook the balance between effectiveness and computational cost. To address this, we first introduce the 3E Criteria to systematically assess the cost-effectiveness of search strategies, revealing that existing methods often trade significant efficiency for marginal performance gains. To improve LLM decision-making while maintaining efficiency, we propose the Speculative Reward Model (SRM), a plug-and-play framework that seamlessly integrates with existing search strategies. Specifically, SRM employs an external reward assigner to predict optimal actions, reducing reliance on LLMs' internal self-evaluation. And a speculative verification mechanism is used to prune suboptimal choices and guide the search toward more promising steps. We evaluate SRM on several complex decision-making tasks including mathematical reasoning, planning and numerical reasoning in specialized domains. Experimental results show that SRM reduces costs to 1/10 of the original search framework on average while maintaining effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)における効果的な意思決定は、複雑なタスクを扱うのに不可欠である。
しかし、既存の手法は性能を優先するが、有効性と計算コストのバランスを無視することが多い。
そこで我々はまず,検索戦略のコスト効率を体系的に評価する3E基準を導入する。
効率を保ちながらLCMの意思決定を改善するために,既存の検索戦略とシームレスに統合するプラグイン・アンド・プレイ・フレームワークであるSpeculative Reward Model (SRM)を提案する。
具体的には、SRMは最適動作を予測するために外部報酬割当器を使用し、LSMの内部自己評価への依存を減らす。
そして、投機的検証機構を用いて、最適下選択を実践し、より有望なステップに向けて探索を導く。
本研究では,数理推論や計画,特殊領域の数値推論など,複雑な意思決定タスクにおけるSRMの評価を行う。
実験の結果,SRMは,有効性を保ちながら,従来の検索フレームワークの1/10までコストを削減できることがわかった。
関連論文リスト
- Exploring the Necessity of Reasoning in LLM-based Agent Scenarios [74.35956310688164]
ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文 参考訳(メタデータ) (2025-03-14T04:34:31Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z) - Efficient Budget Allocation for Large-Scale LLM-Enabled Virtual Screening [0.9558392439655016]
そこで我々は,LLM-as- human-evaluatorアプローチによるスクリーニングを事実上実施し,コスト負担を低減した。
我々は,トップ$m$greedy評価機構を用いて,探索ファーストの上位$m$greedy (EFG-$m$) アルゴリズムを設計する。
驚いたことに、我々はボーナスランキング効果を発見し、アルゴリズムは選択されたサブセット内で、自然に無関心なランキングを誘導する。
論文 参考訳(メタデータ) (2024-08-18T16:44:41Z) - On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach [7.996010840316654]
本稿では,Large Language Models (LLMs) を用いた不確実性低減フレームワークを提案する。
LLMは、先進的な言語能力と、広範なデータサイエンスの専門知識を持たない人々に対して大きな利点をもたらす「従量制」モデルに便乗している。
我々は,本手法が効率的かつ効果的であることを示し,実世界のタスクに有望な応用を提供する。
論文 参考訳(メタデータ) (2024-01-07T09:06:58Z) - Multiple Independent DE Optimizations to Tackle Uncertainty and
Variability in Demand in Inventory Management [0.0]
本研究の目的は、不確実な需要パターンの文脈において、在庫コストを最小限に抑えるための最も効果的な戦略を明らかにすることである。
最適な解を見つけるために、この研究はメタヒューリスティックなアプローチに焦点を当て、複数のアルゴリズムを比較する。
論文 参考訳(メタデータ) (2023-09-22T13:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。