論文の概要: Tiered Agentic Oversight: A Hierarchical Multi-Agent System for Healthcare Safety
- arxiv url: http://arxiv.org/abs/2506.12482v2
- Date: Sun, 28 Sep 2025 22:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.361123
- Title: Tiered Agentic Oversight: A Hierarchical Multi-Agent System for Healthcare Safety
- Title(参考訳): Tiered Agentic Oversight: 医療安全のための階層型マルチエージェントシステム
- Authors: Yubin Kim, Hyewon Jeong, Chanwoo Park, Eugene Park, Haipeng Zhang, Xin Liu, Hyeonhoon Lee, Daniel McDuff, Marzyeh Ghassemi, Cynthia Breazeal, Samir Tulebaev, Hae Won Park,
- Abstract要約: Tiered Agentic Oversight (TAO)は階層的なマルチエージェントシステムで、階層化された自動監視を通じてAIの安全性を高める。
臨床階層(例えば、看護師-物理学者-専門医)にインスパイアされたTAOは、複雑性に基づいた専門エージェントにタスクをルーティングする。
実験によると、TAOは5つの医療安全ベンチマークのうち4つでシングルエージェントや他のマルチエージェントシステムを上回っ、最大8.2%改善されている。
- 参考スコア(独自算出の注目度): 39.9193491638205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) deployed as agents introduce significant safety risks in clinical settings due to their potential for error and single points of failure. We introduce Tiered Agentic Oversight (TAO), a hierarchical multi-agent system that enhances AI safety through layered, automated supervision. Inspired by clinical hierarchies (e.g., nurse-physician-specialist) in hospital, TAO routes tasks to specialized agents based on complexity, creating a robust safety framework through automated inter- and intra-tier communication and role-playing. Crucially, this hierarchical structure functions as an effective error-correction mechanism, absorbing up to 24% of individual agent errors before they can compound. Our experiments reveal TAO outperforms single-agent and other multi-agent systems on 4 out of 5 healthcare safety benchmarks, with up to an 8.2% improvement. Ablation studies confirm key design principles of the system: (i) its adaptive architecture is over 3% safer than static, single-tier configurations, and (ii) its lower tiers are indispensable, as their removal causes the most significant degradation in overall safety. Finally, we validated the system's synergy with human doctors in a user study where a physician, acting as the highest tier agent, provided corrective feedback that improved medical triage accuracy from 40% to 60%. Project Page: https://tiered-agentic-oversight.github.io/
- Abstract(参考訳): エージェントとしてデプロイされた大規模言語モデル(LLM)は、エラーや単一障害点の可能性があるため、臨床現場で重大な安全リスクをもたらす。
我々は階層的なマルチエージェントシステムであるTiered Agentic Oversight(TAO)を導入し、階層化された自動化された監視を通じてAIの安全性を高める。
TAOは、病院における臨床階層(例えば看護師-物理学者-専門医)にインスパイアされ、複雑度に基づく特殊なエージェントにタスクをルーティングし、階層間通信とロールプレイングの自動化を通じて、堅牢な安全性の枠組みを構築する。
重要なのは、この階層構造は効果的なエラー訂正機構として機能し、合成する前に個々のエージェントエラーの最大24%を吸収する。
実験の結果、TAOは5つの医療安全ベンチマークのうち4つでシングルエージェントや他のマルチエージェントシステムを上回っ、最大8.2%の改善が得られた。
アブレーション研究は、システムの重要な設計原則を裏付けている。
(i)適応アーキテクチャは静的な単一層構成よりも3%以上安全であり、
(II) 全体の安全性が著しく低下するため, 下部層は必須である。
最後に,最上位のエージェントとして働く医師が,医療トリアージ精度を40%から60%に向上させる補正フィードバックを提供するユーザスタディにおいて,システムと人間医師の相乗効果を検証した。
Project Page: https://tiered-agentic-oversight.github.io/
関連論文リスト
- WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slow Reasoning for Robust Agent Defense [7.923638619678924]
既存の防御は、有害なユーザ入力や安全でないエージェントの振る舞いによって引き起こされる複雑なセマンティックリスクを捉えるのに苦労する“セーフティチェック(Safety Checks)”に依存している。
我々は新しい防衛フレームワーク ALRPHFS (Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning) を提案する。
ALRPHFS は,(1) リスクパターンの一般化可能な,バランスのとれたライブラリを反復的に洗練するオフライン対向自己学習ループ,(2) 検出効率と計算効率のバランスをとるオンライン階層型高速・低速推論エンジンの2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-05-25T18:31:48Z) - PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning [8.191214701984162]
マルチエージェントシステムは、複雑なタスクを完了させたり、協力したり、競合したりする自律エージェントとして、高度なAIモデルを活用する。
重要性は増しているが、マルチエージェントシステムの安全性はいまだに未調査である。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T19:08:29Z) - Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training [3.439579933384111]
Transformerベースのフレームワークは、テキスト記述と視覚情報を統合して、デバイスの規制分類を予測する。
このアプローチは90.4%の精度と97.9%のAUROCを実現し、テキストのみ(77.2%)と画像のみ(54.8%)のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2025-05-01T09:41:41Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - D-CIPHER: Dynamic Collaborative Intelligent Multi-Agent System with Planner and Heterogeneous Executors for Offensive Security [22.86304661035188]
D-CIPHERは、協調サイバーセキュリティCTF問題解決のためのマルチエージェントフレームワークである。
エージェントと異なる役割を持つエージェントを動的フィードバックループに統合し、複雑なタスクの推論を強化する。
NYU CTF Benchでは22.0%、Cybenchでは22.5%、HackTheBoxでは44.0%である。
論文 参考訳(メタデータ) (2025-02-15T23:43:18Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。