論文の概要: Safe Bilevel Delegation (SBD): A Formal Framework for Runtime Delegation Safety in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2604.27358v1
- Date: Thu, 30 Apr 2026 03:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.897279
- Title: Safe Bilevel Delegation (SBD): A Formal Framework for Runtime Delegation Safety in Multi-Agent Systems
- Title(参考訳): Safe Bilevel Delegation (SBD):マルチエージェントシステムにおけるランタイムデリゲーション安全のための形式的フレームワーク
- Authors: Yuan Sun,
- Abstract要約: 本稿では,階層型マルチエージェントシステムにおけるランタイムデリゲート安全のための公式なフレームワークを提案する。
医療用AI(MIMIC-III)、金融リスク管理(SとP500)、教育エージェント監督(ASSISTments)の3つの高レベル領域で安全な二段階デリゲーション(SBD)をインスタンス化する。
- 参考スコア(独自算出の注目度): 4.161562398794914
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language model (LLM) agents are deployed in high-stakes environments, the question of how safely to delegate subtasks to specialized sub-agents becomes critical. Existing work addresses multi-agent architecture selection at design time or provides broad empirical guidelines, but neither provides a runtime mechanism that dynamically adjusts the safety-efficiency trade-off as task context changes during execution. We propose Safe Bilevel Delegation (SBD), a formal framework for runtime delegation safety in hierarchical multi-agent systems. SBD formulates task delegation as a bilevel optimization problem: an outer meta-weight network phi learns context-dependent safety-efficiency weights lambda(s) in [0,1]; an inner loop optimizes the delegation policy pi subject to a probabilistic safety constraint P(safe) >= 1-delta. The continuous delegation degree alpha in [0, 1] controls how much decision authority is transferred to each sub-agent, interpolating smoothly between full human override (alpha=0) and fully autonomous execution (alpha=1). We establish three theoretical results: (1) Safety Monotonicity--higher outer safety weight produces a weakly safer inner policy; (2) Inner Policy Convergence--projected gradient descent on the inner problem converges linearly under standard smoothness assumptions; (3) an Accountability Propagation bound that distributes responsibility across multi-hop delegation chains with a provable per-agent ceiling. We instantiate SBD in three high-stakes domains--medical AI (MIMIC-III), financial risk control (S and P 500), and educational agent supervision (ASSISTments)--specifying datasets, safety constraint sets, baselines, and evaluation protocols. This manuscript presents the formal framework and theoretical results in full; empirical validation following the protocols described herein is planned and will be reported in a forthcoming revision.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントがハイテイク環境にデプロイされるため、サブタスクを特定のサブエージェントにいかに安全に委譲するかという問題が重要になる。
既存の作業は設計時にマルチエージェントアーキテクチャの選択に対処するか、あるいは広範な実証的なガイドラインを提供するが、実行中のタスクコンテキストの変化に応じて安全性と効率のトレードオフを動的に調整するランタイムメカニズムも提供しない。
階層型マルチエージェントシステムにおけるランタイムデリゲート安全のための形式的フレームワークであるSafe Bilevel Delegation (SBD)を提案する。
SBD はタスクデリゲートを二段階最適化問題として定式化する: 外部メタウェイトネットワーク phi は[0,1] において文脈依存の安全性効率ウェイト lambda(s) を学習し、内部ループは確率論的安全制約 P(safe) >= 1-delta に従うデリゲートポリシー pi を最適化する。
0, 1] における連続デリゲート次数は、決定権限が各サブエージェントにどの程度移動されるかを制御するもので、完全な人間オーバーライド(アルファ=0)と完全自律実行(アルファ=1)の間をスムーズに補間する。
安全モノトニック性が高い外的安全重量は, より弱い内的政策を生み出す; 2) 内的問題に対する内的政策収束性に基づく勾配勾配は, 標準的な平滑性仮定の下で直線的に収束する; (3) 証明可能なパーエージェント天井を持つマルチホップデリゲートチェーンに責任を分散する説明責任伝播境界。
我々は、医療用AI(MIMIC-III)、金融リスク制御(SとP500)、教育エージェント監視(ASSISTments)の3つの高い領域でSBDをインスタンス化する。
本書では、形式的な枠組みと理論的な成果を網羅し、本書に記載されたプロトコルの実証的検証を計画し、今後の改訂で報告する。
関連論文リスト
- FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight [21.731032636844237]
本稿では,双方向のフォーマル・オブ・サートアーキテクチャを用いたニューロシンボリック・フレームワークを提案する。
行動安全,マルチドメイン制約順守,エージェントによる上向き偽装検出の3つのベンチマークにまたがって検証を行った。
論文 参考訳(メタデータ) (2026-02-11T18:48:11Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - Agentic Moderation: Multi-Agent Design for Safer Vision-Language Models [17.28260523039769]
本稿では,Jailbreak攻撃に対するマルチモーダルシステムを保護するために,特殊エージェントを活用するモデル非依存フレームワークであるAgentic Moderationを紹介する。
提案手法は,攻撃成功率(ASR)を7-19%削減し,安定な非フォロー率(NF)を維持し,拒絶率(RR)を4-20%改善する。
エージェントアーキテクチャの柔軟性と推論能力を活用することで、Agentic Moderationはモジュール化され、スケーラブルで、きめ細かい安全対策を提供する。
論文 参考訳(メタデータ) (2025-10-29T05:23:24Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。