論文の概要: When Agents Disagree: The Selection Bottleneck in Multi-Agent LLM Pipelines
- arxiv url: http://arxiv.org/abs/2603.20324v1
- Date: Fri, 20 Mar 2026 00:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.83891
- Title: When Agents Disagree: The Selection Bottleneck in Multi-Agent LLM Pipelines
- Title(参考訳): エージェントが診断する時:マルチエージェントLLMパイプラインにおける選択ボトルネック
- Authors: Artem Maryanskyy,
- Abstract要約: マルチエージェントLLMパイプラインは、チームの多様性がアウトプット品質を改善するかどうかという矛盾した証拠を生み出します。
多様性が役に立つか傷つくかを判断する選択ボトルネックを特定することで解決法を提案する。
この結果から, セレクタの品質は, 単ラウンドジェネレータ選択パイプラインにおけるジェネレータの多様性よりも, より影響の高い設計レバーである可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multi-agent LLM pipelines produce contradictory evidence on whether team diversity improves output quality: heterogeneous Mixture-of-Agents teams outperform single models, yet homogeneous Self-MoA teams consistently win under synthesis-based aggregation. We propose a resolution by identifying the selection bottleneck -- a crossover threshold in aggregation quality that determines whether diversity helps or hurts. Under this model, we obtain a closed-form crossover threshold $s^*$ (Proposition 1) that separates the regimes where diversity helps and hurts. In a targeted experiment spanning 42 tasks across 7 categories ($N=210$), a diverse team with judge-based selection achieves a win rate of 0.810 against a single-model baseline, while a homogeneous team scores 0.512 -- near chance (Glass's $Δ= 2.07$). Judge-based selection outperforms MoA-style synthesis by $Δ_{\mathrm{WR}} = +0.631$ -- the synthesis approach is preferred over the baseline in zero of 42 tasks by the judge panel. A decoupled evaluation with independent judges confirms all directional findings (Spearman $ρ= 0.90$). Exploratory evidence suggests that including a weaker model improves performance while reducing cost ($p < 10^{-4}$, not pre-registered). Our results suggest that selector quality may be a more impactful design lever than generator diversity in single-round generate-then-select pipelines.
- Abstract(参考訳): ヘテロジニアスなMixture-of-Agentsチームは単一モデルよりも優れていますが、同質なSelf-MoAチームは、合成ベースのアグリゲーションの下で一貫して勝利します。
我々は、多様性が役立つか傷つくかを判断する、アグリゲーション品質のクロスオーバーしきい値である選択ボトルネックを特定することで解決する。
このモデルの下では、多様性が役立ち、傷つくレジームを分離する閉形式のクロスオーバーしきい値 $s^*$ (Proposition 1) を得る。
7つのカテゴリにまたがる42のタスク(N=210$)を対象にした実験では、審査ベースの多種多様なチームが1つのモデルベースラインに対して0.810の勝利率を獲得し、同種チームが0.512のスコアを得る(Glassの$Δ=2.07$)。
ジャッジベースの選択は、$Δ_{\mathrm{WR}} = +0.631$ -- によるMoAスタイルの合成よりも優れており、この合成アプローチは、ジャッジパネルによって42タスクのベースラインよりも好まれる。
独立した裁判官との疎結合評価は、すべての方向性の発見を確認する(Spearman $ρ= 0.90$)。
探索的な証拠は、より弱いモデルを含むと、コストを削減しながら性能が向上することを示している(p < 10^{-4}$, not-registered)。
この結果から, セレクタの品質は, 単ラウンドジェネレータ選択パイプラインにおけるジェネレータの多様性よりも, より影響の高い設計レバーである可能性が示唆された。
関連論文リスト
- Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection [0.0]
Budget-Sensitive Discovery Score (BSDS)は、各予算レベルで誤った発見を罰する。
Discovery Quality Score (DQS)は、チェリーピックされた予算でうまく機能することで、プロジェクタがインフレできないような、単一のサマリー統計を提供する。
フレームワークは、候補が予算制約と非対称なエラーコストの下で選択される任意の設定に適用されます。
論文 参考訳(メタデータ) (2026-03-12T18:09:53Z) - Chaotic Dynamics in Multi-LLM Deliberation [0.0]
実験的なLyapunov指数(hat$)を,委員会平均選好の軌道偏差から導いたラン間感度を定量化する。
我々は,同種委員会における役割分化と非ロール委員会における異種性のモデル化という,不安定性に対する独立した経路を2つ同定する。
これらの結果は、マルチLLMガバナンスシステムの中核設計要件としての安定性監査を支援する。
論文 参考訳(メタデータ) (2026-03-10T02:59:11Z) - $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文 参考訳(メタデータ) (2026-01-26T04:22:22Z) - Balancing Centralized Learning and Distributed Self-Organization: A Hybrid Model for Embodied Morphogenesis [0.0]
本研究では,学習可能な脳様のコントローラを細胞様のグレースコット基質に結合して,最小限の努力でステアパターン形成を行う方法について検討する。
コンパクトな畳み込みポリシは、微分可能なPyTorch反応拡散シミュレータに埋め込まれる。
論文 参考訳(メタデータ) (2025-11-13T09:05:27Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Creativity Benchmark: A benchmark for marketing creativity for large language models [0.509780930114934]
Creativity Benchmarkは、マーケティングのクリエイティビティにおける大規模言語モデル(LLM)の評価フレームワークである。
このベンチマークは100のブランド(12のカテゴリ)と3つのプロンプトタイプ(Insights, Ideas, Wild Ideas)をカバーする。
論文 参考訳(メタデータ) (2025-09-05T04:44:29Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。