論文の概要: Multi-Agent Reasoning Improves Compute Efficiency: Pareto-Optimal Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2605.01566v1
- Date: Sat, 02 May 2026 18:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.832592
- Title: Multi-Agent Reasoning Improves Compute Efficiency: Pareto-Optimal Test-Time Scaling
- Title(参考訳): マルチエージェント推論による計算効率の向上:Pareto-Optimal Test-Time Scaling
- Authors: Florian Valentin Wunderlich, Lars Benedikt Kaesberg, Jan Philip Wahle, Terry Ruas, Bela Gipp,
- Abstract要約: 資源制約のある実世界のアプリケーションにとって、計算効率は鍵となる。
我々は,自己整合性,自己縮小性,マルチエージェント論争,混合エージェントの推論スケーリング戦略を体系的に分析する。
並列世代数がシーケンシャルアグリゲーションの数を超える場合、混合エージェントが最も効率的である。
- 参考スコア(独自算出の注目度): 11.219930588268433
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advances in inference methods have enabled language models to improve their predictions without additional training. These methods often prioritize raw performance over cost-effective compute usage. However, computational efficiency is key for real-world applications with resource constraints. We provide a systematic analysis of the inference scaling strategies self-consistency, self-refinement, multi-agent debate, and mixture-of-agents, to study their computational performance tradeoffs. We evaluate methods on two reasoning benchmarks (MMLU-Pro, BBH) and include extensive parameter configurations (e.g., scaling the number of parallel predictions, agents, and debate rounds) across different model sizes. Across 34 configurations and over 100 evaluations, we compute the Pareto-optimal front to select methods that achieve the best accuracy with the lowest computational budget. Notably, inference scaling improves accuracy by up to +7.1% points over chain-of-thought at the highest evaluated budgets (20x the CoT compute budget) on MMLU-Pro. With an equal computing budget, debate and mixture-of-agents outperform self-consistency by 1.3% and 2.7% points, respectively. While self-consistency saturates earlier, multi-agent gains persist, particularly on more complicated tasks. We identify a simple multi-agent design guideline: mixture-of-agents is most efficient when the number of parallel generations exceeds the number of sequential aggregations.
- Abstract(参考訳): 推論手法の進歩により、追加のトレーニングなしで言語モデルによる予測の改善が可能になった。
これらの手法は、コスト効率のよい計算利用よりも生のパフォーマンスを優先することが多い。
しかし,資源制約のある実世界のアプリケーションでは,計算効率が鍵となる。
本稿では, 自己整合性, 自己整合性, マルチエージェントの議論, およびエージェントの混在に関する推論スケーリング戦略の体系的分析を行い, 計算性能のトレードオフについて検討する。
2つの推論ベンチマーク (MMLU-Pro, BBH) の手法の評価を行い, パラメータ構成(例えば, 並列予測数, エージェント数, 討論ラウンド数)を異なるモデルサイズで拡張する。
34以上の構成と100以上の評価を行い、最も低い計算予算で最適な精度を達成する方法を選択するために、パレート最適化フロントを計算した。
特に、推論スケーリングはMMLU-Proの最高評価予算(CoT計算予算の20倍)において、チェーン・オブ・シントよりも最大で7.1%精度が向上する。
同等の計算予算で、議論と混成は、それぞれ1.3%と2.7%で自己整合性を上回っている。
自己整合性はより早く飽和するが、特に複雑なタスクではマルチエージェントゲインが持続する。
並列世代数がシーケンシャルアグリゲーションの数を超える場合、混合エージェントが最も効率的である。
関連論文リスト
- Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets [14.028807574426748]
データ処理の不等式に基づく情報理論の議論を示す。
トークンを一定に保った場合,SASはマルチホップ推論タスクにおいてMASと一貫して一致し,より優れることがわかった。
以上の結果から,マルチホップ推論タスクにおいて,マルチエージェントシステムのアドバンテージを未計算の計算や文脈効果によってよりよく説明できることが示唆された。
論文 参考訳(メタデータ) (2026-04-02T18:47:48Z) - $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - Para-B&B: Load-Balanced Deterministic Parallelization of Solving MIP [50.917107318582715]
MIP(Mixed-integer Programming)は、連続型と整数型の両方の決定変数を組み込むことで線形プログラミングを拡張する。
本稿では,高性能MIPソルバであるHiGHSに対して,決定論的並列分岐結合の完全なオープンソース実装を初めて提案する。
本手法では,ワーカスレッド間で完全なソルバ状態を複製することにより,厳密な決定性を保証する新しいデータ並列アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-02-10T14:17:53Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Entropy-Gated Branching for Efficient Test-Time Reasoning [21.810952984561116]
テスト時間計算法は、大規模言語モデル(LLM)の推論能力と問題解決精度を大幅に向上させることができる。
本稿では,高不確実性ステップのみに分岐するEntropy-Gated Branching (EGB)を提案する。
数学と財務の推論ベンチマークでは、EGBは標準的な推論よりも22.6%精度を向上し、数学のベンチマークで31%-75%高速に動作している。
論文 参考訳(メタデータ) (2025-03-27T20:18:22Z) - Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z) - Best Arm Identification in Stochastic Bandits: Beyond $\beta-$optimality [31.359578768463752]
本稿では,固定信頼設定における多腕バンディットにおけるベストアーム識別(BAI)の非装飾的側面について検討する。
帯域幅アルゴリズムを評価するための2つの重要な指標は、計算効率と性能最適性である。
本稿では,BAIのためのフレームワークとアルゴリズムを導入し,計算効率のよい決定ルールセットを用いて最適性能を実現する。
論文 参考訳(メタデータ) (2023-01-10T05:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。