論文の概要: Composing Agents to Minimize Worst-case Risk
- arxiv url: http://arxiv.org/abs/2506.04632v1
- Date: Thu, 05 Jun 2025 05:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.537396
- Title: Composing Agents to Minimize Worst-case Risk
- Title(参考訳): 最悪のリスクを最小化するための構成剤
- Authors: Guruprerana Shabadi, Rajeev Alur,
- Abstract要約: 我々はエージェント・ワークフローをエージェント・グラフと呼ばれる有向非巡回グラフとして定式化する。
実現可能なエージェント構成のセットよりも最悪のケースリスクを考慮する。
エージェントグラフをトラバースする効率的なアルゴリズムを導入し,エージェントのほぼ最適組成を求める。
- 参考スコア(独自算出の注目度): 1.9556053645976446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From software development to robot control, modern agentic systems decompose complex objectives into a sequence of subtasks and choose a set of specialized AI agents to complete them. We formalize an agentic workflow as a directed acyclic graph, called an agent graph, where edges represent AI agents and paths correspond to feasible compositions of agents. When deploying these systems in the real world, we need to choose compositions of agents that not only maximize the task success, but also minimize risk where the risk captures requirements like safety, fairness, and privacy. This additionally requires carefully analyzing the low-probability (tail) behaviors of compositions of agents. In this work, we consider worst-case risk minimization over the set of feasible agent compositions. We define worst-case risk as the tail quantile -- also known as value-at-risk -- of the loss distribution of the agent composition where the loss quantifies the risk associated with agent behaviors. We introduce an efficient algorithm that traverses the agent graph and finds a near-optimal composition of agents by approximating the value-at-risk via a union bound and dynamic programming. Furthermore, we prove that the approximation is near-optimal asymptotically for a broad class of practical loss functions. To evaluate our framework, we consider a suite of video game-like control benchmarks that require composing several agents trained with reinforcement learning and demonstrate our algorithm's effectiveness in approximating the value-at-risk and identifying the optimal agent composition.
- Abstract(参考訳): ソフトウェア開発からロボット制御まで、現代のエージェントシステムは複雑な目的を一連のサブタスクに分解し、それらを完成させるために専門的なAIエージェントのセットを選択する。
我々はエージェントワークフローをエージェントグラフと呼ばれる有向非巡回グラフとして形式化し、エッジはAIエージェントを表し、パスはエージェントの実行可能な合成に対応する。
これらのシステムを現実世界に展開する際には、タスクの成功を最大化するだけでなく、安全性や公正性、プライバシといった要件を捉えたリスクを最小限に抑えるエージェントの組成を選択する必要があります。
これに加えて、エージェントの組成の低確率(テール)挙動を慎重に分析する必要がある。
本研究では, エージェント構成の組に対する最悪のリスク最小化について検討する。
我々は、損失がエージェントの行動に関連するリスクを定量化するエージェント構成の損失分布の、テール量子化(value-at-risk)として、最悪のケースリスクを定義した。
エージェントグラフをトラバースする効率的なアルゴリズムを導入し、結合境界と動的プログラミングを通した値付きリスクを近似することにより、エージェントのほぼ最適構成を求める。
さらに, この近似が, 実用的損失関数の幅広いクラスに対して, 漸近的にほぼ最適であることを証明した。
本フレームワークを評価するために,強化学習で訓練されたエージェントを複数作成する必要のあるゲームライクな制御ベンチマークについて検討し,リスク評価と最適なエージェント構成の同定にアルゴリズムの有効性を実証する。
関連論文リスト
- Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Risk-Sensitive Multi-Agent Reinforcement Learning in Network Aggregative
Markov Games [2.85386288555414]
ネットワーク集約ゲーム(NAMG)のCPTリスクを考慮した分散サンプリングベースアクタクリティカル(AC)アルゴリズムを提案する。
一組の仮定の下で、NAMGにおける完全ナッシュ均衡の主観的な概念を証明する。
実験により、主観的な政策はリスク中立的な政策とは異なる可能性があることが示された。
論文 参考訳(メタデータ) (2024-02-08T18:43:27Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [25.499420566469098]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Eliciting Risk Aversion with Inverse Reinforcement Learning via
Interactive Questioning [0.0]
本稿では,対話型質問を用いたエージェントのリスク回避のための新しいフレームワークを提案する。
エージェントのリスク回避は、質問の数が無限大になる傾向があり、質問がランダムに設計されるため、特定できることを示す。
我々のフレームワークはロボアドバイスに重要な応用があり、エージェントのリスク嗜好を特定するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2023-08-16T15:17:57Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。