論文の概要: CascadeDebate: Multi-Agent Deliberation for Cost-Aware LLM Cascades
- arxiv url: http://arxiv.org/abs/2604.12262v1
- Date: Tue, 14 Apr 2026 04:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.233115
- Title: CascadeDebate: Multi-Agent Deliberation for Cost-Aware LLM Cascades
- Title(参考訳): CascadeDebate: コスト対応LLMカスケードのマルチエージェント検討
- Authors: Raeyoung Chang, Dongwook Kwon, Jisoo Lee, Nikhil Verma,
- Abstract要約: CascadeDebateは、モデルと人間の専門家を協調して精度、コスト、そして不確実性の下での棄権のバランスをとるマルチエージェントシステムである。
我々のアーキテクチャは、モデルスケールにまたがる選択的なマルチエージェント検討と単一モデル推論を交互に行い、最終的なフォールバックとして人間の専門家を導いた。
科学、医学、一般知識にまたがる5つのベンチマークで、CascadeDebateは強力なシングルモデルカスケードとスタンドアロンのマルチエージェントシステムより最大26.75パーセントパフォーマンスがある。
- 参考スコア(独自算出の注目度): 3.2562960801091094
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cascaded LLM systems coordinate models of varying sizes with human experts to balance accuracy, cost, and abstention under uncertainty. However, single-model tiers at each stage often struggle with ambiguous queries, triggering premature escalations to costlier models or experts due to under-confidence and inefficient compute scaling. CascadeDebate addresses this gap by inserting multi-agent deliberation directly at each tier's escalation boundary. Confidence-based routers activate lightweight agent ensembles only for uncertain cases, enabling consensus-driven resolution of ambiguities internally without invoking higher-cost upgrades. Our unified architecture alternates single-model inference with selective multi-agent deliberation across model scales, culminating in human experts as the final fallback. This design scales test-time compute dynamically according to query difficulty. Across five benchmarks spanning science, medicine, and general knowledge, CascadeDebate outperforms strong single-model cascades and standalone multi-agent systems by up to 26.75 percent. An online threshold optimizer proves essential, boosting accuracy by 20.98 to 52.33 percent relative improvement over fixed policies and enabling elastic adaptation to real-world distributions.
- Abstract(参考訳): カスケードLLMシステムは、不確実性の下で正確さ、コスト、棄権のバランスをとるために、人間の専門家と様々なサイズのモデルを調整する。
しかし、各ステージのシングルモデル層は曖昧なクエリに苦しむことが多く、信頼性の低い計算スケーリングと非効率な計算スケーリングのために、コストの低いモデルや専門家に早めのエスカレーションを引き起こす。
CascadeDebateは、各階層のエスカレーション境界に直接マルチエージェントの審議を挿入することで、このギャップに対処する。
信頼性ベースのルータは、不確実な場合にのみ軽量エージェントアンサンブルを起動し、高コストアップグレードを発生させることなく、内部での曖昧性のコンセンサス駆動の解決を可能にする。
我々の統一アーキテクチャは、モデルスケールをまたいだ選択的なマルチエージェント検討と単一モデル推論を交互に行い、最終的なフォールバックとして人間の専門家を導いた。
この設計はクエリの難易度に応じてテスト時間計算を動的にスケールする。
科学、医学、一般知識にまたがる5つのベンチマークで、CascadeDebateは強力なシングルモデルカスケードとスタンドアロンのマルチエージェントシステムより最大26.75パーセントパフォーマンスがある。
オンラインしきい値オプティマイザは必須であり、固定されたポリシーよりも精度を20.98から52.33%向上させ、現実世界の分布に弾力的な適応を可能にする。
関連論文リスト
- CAMO: A Conditional Neural Solver for the Multi-objective Multiple Traveling Salesman Problem [13.232337043603161]
多目的多目的トラベリングセールスマン問題(MOMTSP)に対する条件付きニューラルネットワークCAMOを提案する。
ターゲット、エージェント、選好ベクトルの様々な数にまたがって一般化し、パレートフロント(PF)に高品質な近似をもたらす。
実験により、CAMOは神経と慣性の両方に優れており、PFのより近い近似が達成されている。
論文 参考訳(メタデータ) (2026-03-19T15:59:45Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - HyPER: Bridging Exploration and Exploitation for Scalable LLM Reasoning with Hypothesis Path Expansion and Reduction [4.0252071077178]
マルチパスチェーンによるテスト時間計算のスケーリングは推論精度を向上する。
既存のアプローチは、このトレードオフを厳格な方法で解決している。
動的拡張還元制御問題としてテスト時間スケーリングを再構成する。
論文 参考訳(メタデータ) (2026-02-06T09:27:54Z) - Orchestrating Intelligence: Confidence-Aware Routing for Efficient Multi-Agent Collaboration across Multi-Scale Models [41.494768986191104]
OI-MASは、マルチスケールモデルのヘテロジニアスプールにまたがる適応モデル選択ポリシーを実装する、新しいマルチエージェントフレームワークである。
OI-MASはベースラインのマルチエージェントシステムより一貫して優れており、精度は最大12.88%向上し、コストは最大79.78%削減されている。
論文 参考訳(メタデータ) (2026-01-08T11:56:09Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。