論文の概要: EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.11170v1
- Date: Mon, 13 Oct 2025 09:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.282616
- Title: EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling
- Title(参考訳): EAGER: 適応推論時間スケーリングのためのエントロピー対応GEneRation
- Authors: Daniel Scalena, Leonidas Zotos, Elisabetta Fersini, Malvina Nissim, Ahmet Üstün,
- Abstract要約: 本稿では,トークンワイドエントロピー分布を用いたモデル不確実性を利用した学習自由生成手法であるEAGerを提案する。
AIME 2025のような複雑な推論ベンチマーク上の複数のオープンソースモデルにおいて、EAGerはターゲットラベルにアクセスせずに予算を再配置できる。
ターゲットラベルがアクセス可能になった場合、EAGerは最大65%のトークンを生成し、Full Parallel Samplingと比較して、Pass@kを最大37%改善する。
- 参考スコア(独自算出の注目度): 17.020890684331203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of reasoning language models and test-time scaling methods as a paradigm for improving model performance, substantial computation is often required to generate multiple candidate sequences from the same prompt. This enables exploration of different reasoning paths toward the correct solution, however, allocates the same compute budget for each prompt. Grounded on the assumption that different prompts carry different degrees of complexity, and thus different computation needs, we propose EAGer, a training-free generation method that leverages model uncertainty through token-wise entropy distribution to reduce redundant computation and concurrently improve overall performance. EAGer allows branching to multiple reasoning paths only in the presence of high-entropy tokens, and then reallocates the saved compute budget to the instances where exploration of alternative paths is most needed. We find that across multiple open-source models on complex reasoning benchmarks such as AIME 2025, EAGer can reallocate the budget without accessing target labels, achieving the best efficiency-performance trade-off in terms of reasoning length and Pass@k. When target labels are accessible, EAGer generates up to 65% fewer tokens (hence saving compute) and achieves up to 37% improvement in Pass@k compared to the Full Parallel Sampling.
- Abstract(参考訳): モデル性能向上のパラダイムとして、推論言語モデルやテスト時間スケーリングメソッドが台頭するにつれて、同じプロンプトから複数の候補列を生成するためには、かなりの計算が必要であることがしばしばある。
これにより、正しい解に対する異なる推論経路の探索が可能になるが、各プロンプトに対して同じ計算予算を割り当てる。
異なるプロンプトが異なる複雑性の度合いを持ち、異なる計算を必要とするという仮定に基づいて、トークンワイドエントロピー分布によるモデルの不確実性を利用して冗長な計算を減らし、全体的な性能を同時に向上させる訓練不要な生成法であるEAGerを提案する。
EAGerは、高エントロピートークンの存在下でのみ複数の推論パスへの分岐を可能にし、保存された計算予算を、代替パスの探索が最も必要となるインスタンスに再割り当てする。
AIME 2025のような複雑な推論ベンチマーク上の複数のオープンソースモデルにおいて、EAGerは、ターゲットラベルにアクセスせずに予算を再配置することができ、推論の長さとPass@kの点で最高の効率とパフォーマンスのトレードオフを達成することができる。
ターゲットラベルがアクセス可能になった場合、EAGerは最大65%のトークン(保存計算)を生成し、Full Parallel Smplingと比較して最大37%のPass@k改善を実現している。
関連論文リスト
- DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models [85.76129014170778]
推論時間計算は、複数の独立解の中から選択するか、あるいは自己精製を通じて逐次的にスケールすることができる。
進化的手法にインスパイアされたテスト時間スケーリング手法であるRecursive Self-Aggregation (RSA)を提案する。
論文 参考訳(メタデータ) (2025-09-30T17:58:03Z) - Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。
Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T01:56:29Z) - A*-Decoding: Token-Efficient Inference Scaling [0.0]
推論時間スケーリングは、言語モデルのパフォーマンスを改善するためのパラメータスケーリングの強力な代替手段として登場した。
A*-decoding(A*-decoding)は、A*検索アルゴリズムに基づいて、固定された計算予算を最適に活用する検索ベースの推論時戦略である。
我々の研究は、より効率的でスケーラブルな言語モデルのデプロイメントにおける将来的な進歩を指して、思慮深い推論時戦略がSLMの推論をいかに向上させるかを実証している。
論文 参考訳(メタデータ) (2025-05-19T19:19:48Z) - When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning [90.5036809670993]
大規模な言語モデルの推論能力を向上するための重要な戦略として、テスト時間計算のスケーリングが登場した。
次世代予測課題としてのジェネレーティブ・リワード・モデル(GenRM)再フレーム検証の最近の進歩
我々は、さまざまなモデルやデータセットにまたがる最も実用的な推論予算について、GenRMと自己整合性(SC)を評価した。
論文 参考訳(メタデータ) (2025-04-01T17:41:57Z) - ETS: Efficient Tree Search for Inference-Time Scaling [61.553681244572914]
テストタイムの計算スケーリングにおいて有望なアプローチのひとつは、プロセス報酬モデルに対する検索である。
木探索過程における軌跡の多様性は、多様性の増大がさらなる探索を促進するため、探索の精度に影響を与える。
本稿では,冗長なトラジェクトリを抽出し,必要な多様なトラジェクトリを維持しながら,KVの共有を促進する効率的なツリー探索(ETS)を提案する。
論文 参考訳(メタデータ) (2025-02-19T09:30:38Z) - Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。
PARは自己教師付き学習方式により、パフォーマンスと効率のバランスが優れている。特に、PARは高い柔軟性を持ち、様々なアクセラレーションシナリオに対処する複数のプルーニングバージョンを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:02:35Z) - Achieving PAC Guarantees in Mechanism Design through Multi-Armed Bandits [8.013444110633223]
自動機構設計のための線形プログラム(LP)に最適解のクラスを解析的に導出する。
これらの解は、元の定式化における変数の総数よりも指数関数的に小さい基本変数の集合を用いて表すことができる。
本稿では,この用語の評価をマルチアーム・バンディット(MAB)問題に翻訳することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-11-30T03:59:36Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - The DEformer: An Order-Agnostic Distribution Estimating Transformer [17.352818121007576]
順序に依存しない自己回帰分布推定(OADE)は、生成機械学習において難しい問題である。
本稿では,各特徴のアイデンティティを入力の値とともに含む特徴のアイデンティティを符号化する代替手法を提案する。
この入力に基づいてトレーニングされたトランスフォーマーは、二項化MNISTを効果的にモデル化し、固定順序自己回帰分布推定アルゴリズムの平均負の対数類似度にアプローチできることを示す。
論文 参考訳(メタデータ) (2021-06-13T13:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。