論文の概要: ALIGN: Aligned Delegation with Performance Guarantees for Multi-Agent LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.00127v1
- Date: Wed, 28 Jan 2026 00:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.961372
- Title: ALIGN: Aligned Delegation with Performance Guarantees for Multi-Agent LLM Reasoning
- Title(参考訳): ALIGN:マルチエージェントLLM推論のための性能保証付きデリゲート
- Authors: Tong Zhu, Baiting Chen, Jin Zhou, Hua Zhou, Sriram Sankararaman, Xiaowu Dai,
- Abstract要約: 推論時間アンサンブル法は、多様な推論経路をサンプリングしたり、複数の候補解を集約することで、性能を向上させることができる。
本稿では,ALIGN(Aligned Delegation for Multi-Agent LLM Reasoning)という,ALIGN(Aligned Delegation for Multi-Agent LLM Reasoning)を提案する。
提案手法は,候補解に対する等速アクセスと公正に比較した場合,ALIGNが単一エージェント生成よりも期待性能を確実に向上することを示す理論的保証を確立する。
- 参考スコア(独自算出の注目度): 9.381086885165208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs often underperform on complex reasoning tasks when relying on a single generation-and-selection pipeline. Inference-time ensemble methods can improve performance by sampling diverse reasoning paths or aggregating multiple candidate answers, but they typically treat candidates independently and provide no formal guarantees that ensembling improves reasoning quality. We propose a novel method, Aligned Delegation for Multi-Agent LLM Reasoning (ALIGN), which formulates LLM reasoning as an aligned delegation game. In ALIGN, a principal delegates a task to multiple agents that generate candidate solutions under designed incentives, and then selects among their outputs to produce a final answer. This formulation induces structured interaction among agents while preserving alignment between agent and principal objectives. We establish theoretical guarantees showing that, under a fair comparison with equal access to candidate solutions, ALIGN provably improves expected performance over single-agent generation. Our analysis accommodates correlated candidate answers and relaxes independence assumptions that are commonly used in prior work. Empirical results across a broad range of LLM reasoning benchmarks consistently demonstrate that ALIGN outperforms strong single-agent and ensemble baselines.
- Abstract(参考訳): LLMは単一の世代選択パイプラインに依存する場合、複雑な推論タスクでは性能が劣ることが多い。
推論時間アンサンブル法は、多様な推論経路をサンプリングしたり、複数の候補回答を集約することで、性能を向上させることができるが、一般的には、候補を個別に扱い、アンサンブルが推論品質を改善するという正式な保証を与えない。
本稿では,ALIGN(Aligned Delegation for Multi-Agent LLM Reasoning)という,ALIGN(Aligned Delegation for Multi-Agent LLM Reasoning)を提案する。
ALIGNでは、プリンシパルが複数のエージェントにタスクを委譲し、設計インセンティブの下で候補ソリューションを生成し、最終的な答えを生成するために出力の中から選択する。
この定式化は、エージェントと主目的との整合性を維持しながら、エージェント間の構造的相互作用を誘導する。
提案手法は,候補解に対する等速アクセスと公正に比較した場合,ALIGNが単一エージェント生成よりも期待性能を確実に向上することを示す理論的保証を確立する。
本分析は,先行研究でよく用いられる独立仮定を緩和する。
LLM推論ベンチマークの幅広い実験結果は、ALIGNが強い単一エージェントとアンサンブルベースラインより優れていることを一貫して証明している。
関連論文リスト
- Beyond Fast and Slow: Cognitive-Inspired Elastic Reasoning for Large Language Models [39.03483371038282]
CogERは、人間の階層的推論にインスパイアされたフレームワークである。
外部ツールを必要とするクエリに対して、Cognitive Tool-Assisted Reasoningを導入する。
CogERは最先端のTest-Timeスケーリングメソッドより優れています。
論文 参考訳(メタデータ) (2025-12-17T05:11:58Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。
我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。
我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文 参考訳(メタデータ) (2025-10-01T22:21:50Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Refining Answer Distributions for Improved Large Language Model Reasoning [24.67507932821155]
本稿では,Large Language Models (LLMs) の推論能力を高めるための,新しいアルゴリズムフレームワークであるRefined Answer Distributionsを提案する。
我々のアプローチは、モンテカルロ近似(英語版)を形成するための反復的なサンプリング戦略と見なすことができる。
論文 参考訳(メタデータ) (2024-12-17T19:45:53Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。