Fugu-MT 論文翻訳(概要): A*-Decoding: Token-Efficient Inference Scaling

論文の概要: A*-Decoding: Token-Efficient Inference Scaling

arxiv url: http://arxiv.org/abs/2505.13672v1
Date: Mon, 19 May 2025 19:19:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.49638
Title: A*-Decoding: Token-Efficient Inference Scaling
Title（参考訳）: A*-デコーディング:トークン効率の良い推論スケーリング
Authors: Giannis Chatziveroglou,
Abstract要約: 推論時間スケーリングは、言語モデルのパフォーマンスを改善するためのパラメータスケーリングの強力な代替手段として登場した。 A*-decoding(A*-decoding)は、A*検索アルゴリズムに基づいて、固定された計算予算を最適に活用する検索ベースの推論時戦略である。我々の研究は、より効率的でスケーラブルな言語モデルのデプロイメントにおける将来的な進歩を指して、思慮深い推論時戦略がSLMの推論をいかに向上させるかを実証している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inference-time scaling has emerged as a powerful alternative to parameter scaling for improving language model performance on complex reasoning tasks. While existing methods have shown strong performance gains under fixed compute budgets, there has been little focus on optimally utilizing that budget during inference. In this work, we introduce A*-decoding, a search-based inference-time strategy that builds on the A* search algorithm to optimally utilize a fixed compute budget by prioritizing high-quality reasoning paths during generation. We frame language model decoding as a structured search in a state space of partial solutions, applying the A* transition model to identify promising continuations guided by an external process supervision signal. In our experiments, A*-decoding reaches the performance levels of strong inference scaling baselines like best-of-N and particle filtering while using up to 3x fewer tokens and 30% fewer PRM passes under equivalent compute budgets. On the MATH500 and AIME 2024 benchmarks, A*-decoding enables Llama-3.2-1B-Instruct to match the performance of the 70x larger Llama-3.1-70B-Instruct, and allows Qwen3-1.7B to reach o1-like reasoning accuracy. These results highlight the power of structured search in decoding, offering an alternative to brute-force sampling or scale-driven gains. Our work demonstrates how thoughtful inference-time strategies can enhance reasoning in SLMs, pointing toward future advances in more efficient and scalable language model deployment.
Abstract（参考訳）: 推論時間スケーリングは、複雑な推論タスクにおける言語モデルのパフォーマンス向上のためのパラメータスケーリングの強力な代替手段として登場した。既存の手法では, 計算予算の固定化により, 高い性能向上が見られたが, 推論時に最適にその予算を活用することにはほとんど焦点が当てられていない。本研究では,A*探索アルゴリズムをベースとした探索型推論時間戦略であるA*復号を導入し,生成時の高品質な推論経路を優先順位付けすることで,最適化された計算予算を最適に活用する。部分解の状態空間における構造化探索として言語モデルデコーディングを行い、A*遷移モデルを適用して、外部プロセス監視信号によって導かれる有望な継続を識別する。実験では,最大3倍のトークンと30%のPRMパスを等価計算予算で使用しながら,ベストオブNやパーティクルフィルタのような強力な推論スケーリングベースラインの性能レベルに達した。 MATH500とAIME 2024のベンチマークでは、A*デコードにより、Llama-3.2-1B-インストラクトは70倍大きなLlama-3.1-70B-インストラクトと一致し、Qwen3-1.7Bはo1のような推論精度に達する。これらの結果は、デコードにおける構造化検索のパワーを強調し、ブルートフォースサンプリングやスケールドリブンゲインに代わるものを提供する。我々の研究は、より効率的でスケーラブルな言語モデルのデプロイメントにおける将来的な進歩を指して、思慮深い推論時戦略がSLMの推論をいかに向上させるかを実証している。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。 LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文参考訳（メタデータ） (2025-06-15T12:14:16Z)
Every Rollout Counts: Optimal Resource Allocation for Efficient Test-Time Scaling [19.673388630963807]
テスト時間スケーリング(TTS)による大規模言語モデル(LLM)の性能向上探索中に最も効果的にロールアウト予算を割り当てる方法はまだ探索されていないが、多くの場合、テスト時に計算の効率が悪くなる。本稿では,このバイアスを緩和する最適手法として,指向性資源割当(DORA)を提案する。
論文参考訳（メタデータ） (2025-05-30T09:05:25Z)
CHORUS: Zero-shot Hierarchical Retrieval and Orchestration for Generating Linear Programming Code [0.0]
本研究では,Large Language Models (LLMs) のLinear Programming (LP) コード生成における効率性について検討する。自然言語問題文からGurobiベースのLPコードを合成する検索拡張生成フレームワークCHORUSを提案する。 NL4-Codeベンチマークの実験では、CHORUSはベースラインや従来のRAGに比べて大きなマージンでオープンソースのLLMの性能を改善している。
論文参考訳（メタデータ） (2025-05-02T16:36:57Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
$φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-17T15:38:33Z)
Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文参考訳（メタデータ） (2025-02-11T02:31:11Z)
Rational Metareasoning for Large Language Models [17.479428400594028]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文参考訳（メタデータ） (2024-10-07T23:48:52Z)
Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models [46.959380978972206]
我々は、推論スケーリング法則(いわゆるテスト時間スケーリング法則)と計算最適推論について研究する。計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。この結果から,モデルパラメータのスケーリングよりも,推論戦略による推論計算のスケーリングの方が効率的であることが示唆された。
論文参考訳（メタデータ） (2024-08-01T17:16:04Z)
From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文参考訳（メタデータ） (2024-06-24T17:45:59Z)
Towards Better Out-of-Distribution Generalization of Neural Algorithmic Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文参考訳（メタデータ） (2022-11-01T18:33:20Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。