論文の概要: Learning to Orchestrate Agents under Uncertainty
- arxiv url: http://arxiv.org/abs/2605.27073v1
- Date: Tue, 26 May 2026 14:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.218426
- Title: Learning to Orchestrate Agents under Uncertainty
- Title(参考訳): 不確実性下でのエージェントのオーケストレーションの学習
- Authors: Mary Chriselda Antony Oliver, Lan Jiang, Aaron Bundi Anampiu, Elaf Almahmoud, Francesco Quinzan, Umang Bhatt,
- Abstract要約: 本研究では,不確実性下における異種エージェントの適応的オーケストレーションの問題について検討する。
エージェントよりも帯域幅の問題としてオーケストレーションをリキャストする軽量フレームワークであるBOT-Orchを提案する。
正規化オーケストレーションは標準的な仮定で$mathcalO(sqrtT)$ regretを楽しんでおり、同じ平均報酬を持つエージェント間の選好順序を確実に誘導するが、分布アライメントが異なることを示す。
- 参考スコア(独自算出の注目度): 6.259311190073734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive orchestration of heterogeneous agents requires making sequential delegation decisions under uncertain and evolving agent behaviour, e.g., coordinating specialised AI models with varying reliability, cost, and response quality. While prior work on agent orchestration focuses on performance or cost, uncertainty in agent reliability and output distributions is typically not modelled explicitly at the orchestration level. In this work, we study the problem of adaptive orchestration of heterogeneous agents under uncertainty, where a meta-controller must decide when to delegate to an agent, accounting for reliability, cost, and uncertainty. We propose BOT-Orch, a lightweight framework that recasts orchestration as a bandit problem over agents, regularized by OT distances between agent output distributions and task-specific reference distributions. We show that the regularised orchestration enjoys $\mathcal{O}(\sqrt{T})$ regret under standard assumptions, and provably induces preference ordering among agents with identical mean rewards but differing distributional alignment. Empirically, we demonstrate that BOT-Orch outperforms standard bandit and heuristic baselines in synthetic but adversarial task allocation settings with heterogeneous, non-i.i.d. agent behaviour.
- Abstract(参考訳): 異種エージェントの適応的なオーケストレーションには、不確実で進化しているエージェントの振る舞いの下でシーケンシャルなデリゲーション決定を行う必要がある。
エージェントオーケストレーションに関する以前の作業はパフォーマンスやコストに重点を置いていたが、エージェントの信頼性と出力分布の不確実性は通常、オーケストレーションレベルで明示的にモデル化されない。
本研究では,不確実性下における異種エージェントの適応的オーケストレーションの問題について検討する。そこでは,メタコントローラがエージェントにいつ委譲するか,信頼性,コスト,不確実性を考慮して決定しなければならない。
BOT-Orchは,エージェントの出力分布とタスク固有の参照分布の間のOT距離によって正規化される,エージェント上の帯域幅問題としてオーケストレーションをリキャストする軽量フレームワークである。
正規化オーケストレーションは標準的な仮定で$\mathcal{O}(\sqrt{T})$ regretを楽しんでおり、同じ平均報酬を持つエージェント間の選好順序を確実に誘導するが、分布アライメントが異なることを示す。
実験的に、BOT-Orchは、異種、非i.d.エージェントの振る舞いを持つ合成タスク割り当て設定において、標準のバンディットとヒューリスティックベースラインよりも優れていることを示した。
関連論文リスト
- AgenticAITA: A Proof-Of-Concept About Deliberative Multi-Agent Reasoning for Autonomous Trading Systems [0.0]
AgentICAITAはエージェントAIフレームワークで、従来のシグナルを置き換えて、完全に自律的なループでパラダイムを実行する。
このフレームワークは、76の資産にわたる157のゼロ・インターベンション・呼び出しを達成し、デリバティブ・パイプラインの運用上の正しさを示す。
論文 参考訳(メタデータ) (2026-05-01T16:25:43Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Prior-Agnostic Incentive-Compatible Exploration [32.22947381651758]
帯域設定では、長期的な後悔のメトリクスを最適化するには探索が必要である。
エージェントが誠実に予測に従うように、(重み付けされた)後悔の限界を彼ら自身の満足度に置き換えていることが示されます。
我々は,バンディット設定における適応性と重み付けされた後悔を保証するための具体的なアルゴリズムを用いて,抽象的な境界をインスタンス化する。
論文 参考訳(メタデータ) (2026-02-24T01:53:08Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Steering No-Regret Agents in MFGs under Model Uncertainty [19.845081182511713]
本研究では,密度非依存遷移を伴う平均フィールドゲームにおけるステアリング報酬の設計について検討する。
我々は,エージェントの行動と所望の行動との累積的ギャップについて,サブ線形後悔の保証を確立する。
本研究は, 不確実な大人口システムにおいて, エージェントの操舵行動に有効な枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-12T12:02:02Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Robust Allocations with Diversity Constraints [65.3799850959513]
エージェント値の積を最大化するナッシュ福祉規則は,多様性の制約が導入されたとき,一意にロバストな位置にあることを示す。
また, ナッシュ・ウェルズによる保証は, 広く研究されているアロケーション・ルールのクラスにおいて, ほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-09-30T11:09:31Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。