論文の概要: Bayesian Orchestration of Multi-LLM Agents for Cost-Aware Sequential Decision-Making
- arxiv url: http://arxiv.org/abs/2601.01522v1
- Date: Sun, 04 Jan 2026 13:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.463251
- Title: Bayesian Orchestration of Multi-LLM Agents for Cost-Aware Sequential Decision-Making
- Title(参考訳): コストを考慮したシークエンシャル意思決定のためのマルチLLMエージェントのベイジアンオーケストレーション
- Authors: Danial Amin,
- Abstract要約: 大規模言語モデル(LLM)は、非対称なエラーコストの設定において、自律的な決定エージェントとしてデプロイされることが増えている。
本稿では,LLMを近似的近似モデルとして扱う,ベイズ的かつコストに配慮したマルチLLMオーケストレーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as autonomous decision agents in settings with asymmetric error costs: hiring (missed talent vs wasted interviews), medical triage (missed emergencies vs unnecessary escalation), and fraud detection (approved fraud vs declined legitimate payments). The dominant design queries a single LLM for a posterior over states, thresholds "confidence," and acts; we prove this is inadequate for sequential decisions with costs. We propose a Bayesian, cost-aware multi-LLM orchestration framework that treats LLMs as approximate likelihood models rather than classifiers. For each candidate state, we elicit likelihoods via contrastive prompting, aggregate across diverse models with robust statistics, and update beliefs with Bayes rule under explicit priors as new evidence arrives. This enables coherent belief updating, expected-cost action selection, principled information gathering via value of information, and fairness gains via ensemble bias mitigation. In resume screening with costs of 40000 USD per missed hire, 2500 USD per interview, and 150 USD per phone screen, experiments on 1000 resumes using five LLMs (GPT-4o, Claude 4.5 Sonnet, Gemini Pro, Grok, DeepSeek) reduce total cost by 294000 USD (34 percent) versus the best single-LLM baseline and improve demographic parity by 45 percent (max group gap 22 to 5 percentage points). Ablations attribute 51 percent of savings to multi-LLM aggregation, 43 percent to sequential updating, and 20 percent to disagreement-triggered information gathering, consistent with the theoretical benefits of correct probabilistic foundations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、非対称なエラーコストで自律的な意思決定エージェントとして、採用(才能の欠如とインタビューの無駄)、医学的トリアージ(緊急性の欠如と不要なエスカレーション)、不正検出(不正の承認と合法的な支払いの減少)として、ますます多くデプロイされている。
支配的な設計は、1つのLSMを状態、しきい値「自信」、行動に対して問合せするが、これはコストによるシーケンシャルな決定には不十分であることを示す。
本稿では,LLMを分類器ではなく近似的近似モデルとして扱う,ベイズ的かつ低コストなマルチLLMオーケストレーションフレームワークを提案する。
それぞれの候補状態に対して、コントラスト的なプロンプト、頑健な統計を持つ多様なモデルにまたがる集約、そして新たな証拠が到来するにつれて、ベイズ・ルールによる信念を明示的に更新する。
これにより、コヒーレントな信念の更新、予測コストの行動選択、情報の価値による原則化された情報収集、およびアンサンブルバイアス緩和による公正な利益が可能になる。
採用1件あたり40000USD、インタビュー2500USD、電話画面あたり150USDの費用で再検査を再開する際、5つのLCM(GPT-4o、Claude 4.5 Sonnet、Gemini Pro、Grok、DeepSeek)を使った1000回の試験では、最高の単一LLMベースラインに対して294,000USD(34%)のコストを削減し、人口比率を45%改善した(最大グループギャップ22~5ポイント)。
アブレーションは、マルチLLMアグリゲーションの貯蓄の51%、シーケンシャルアップデートの43%、不一致情報収集の20%が、正しい確率的基礎の理論的利点と一致しているとしている。
関連論文リスト
- HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - Scaling Truth: The Confidence Paradox in AI Fact-Checking [0.8201655885319955]
大規模言語モデル(LLM)は事実検証の自動化を約束するが、グローバルな文脈での有効性は不確実である。
我々はこれまでに47言語174のファクトチェック組織で評価された5000のクレームを用いて,複数のカテゴリにまたがる9つの確立されたLCMを体系的に評価した。
より小さいモデルでは精度が低いにもかかわらず高い信頼性を示す一方、より大きなモデルは高い精度を示すが、信頼性は低い。
論文 参考訳(メタデータ) (2025-09-10T17:36:25Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning [59.56171041796373]
我々は、堅牢で効率的なマルチモーダル・インストラクショナルデータを収集する。
インタラクションスタイルを多様性指標とし、マルチモーダルリッチなスタイルラーを用いてデータインストラクションパターンを識別する。
14のマルチモーダルベンチマークによって検証された10以上の実験環境において、ランダムサンプリング、ベースライン戦略、最先端の選択方法に対する一貫した改善を示す。
論文 参考訳(メタデータ) (2025-03-17T17:11:22Z) - Cost-Saving LLM Cascades with Early Abstention [1.3108652488669732]
LLMカスケードにおける「早期禁忌」の利点について検討した。
6つのベンチマークで,テスト全体の損失を平均2.2%削減できることがわかった。
これらの利得は、より効果的な禁制の使用、総禁制率の4.1%の平均的な増加、コストの13.0%の削減、エラー率の5.0%の削減によって生じる。
論文 参考訳(メタデータ) (2025-02-13T08:08:39Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。
標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。
我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文 参考訳(メタデータ) (2024-08-27T17:57:45Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。