論文の概要: Tiered Agentic Oversight: A Hierarchical Multi-Agent System for AI Safety in Healthcare
- arxiv url: http://arxiv.org/abs/2506.12482v1
- Date: Sat, 14 Jun 2025 12:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.295038
- Title: Tiered Agentic Oversight: A Hierarchical Multi-Agent System for AI Safety in Healthcare
- Title(参考訳): Tiered Agentic Oversight: 医療におけるAI安全のための階層型マルチエージェントシステム
- Authors: Yubin Kim, Hyewon Jeong, Chanwoo Park, Eugene Park, Haipeng Zhang, Xin Liu, Hyeonhoon Lee, Daniel McDuff, Marzyeh Ghassemi, Cynthia Breazeal, Samir Tulebaev, Hae Won Park,
- Abstract要約: Tiered Agentic Oversight(TAO)は階層的なマルチエージェントフレームワークで、階層化された自動監視を通じてAIの安全性を高める。
臨床階層(看護師、医師、専門家など)にインスパイアされたTAOは、タスクの複雑さとエージェントの役割に基づいてエージェントルーティングを実行する。
- 参考スコア(独自算出の注目度): 43.75158832964138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large language models (LLMs), despite their power, can introduce safety risks in clinical settings due to limitations such as poor error detection and single point of failure. To address this, we propose Tiered Agentic Oversight (TAO), a hierarchical multi-agent framework that enhances AI safety through layered, automated supervision. Inspired by clinical hierarchies (e.g., nurse, physician, specialist), TAO conducts agent routing based on task complexity and agent roles. Leveraging automated inter- and intra-tier collaboration and role-playing, TAO creates a robust safety framework. Ablation studies reveal that TAO's superior performance is driven by its adaptive tiered architecture, which improves safety by over 3.2% compared to static single-tier configurations; the critical role of its lower tiers, particularly tier 1, whose removal most significantly impacts safety; and the strategic assignment of more advanced LLM to these initial tiers, which boosts performance by over 2% compared to less optimal allocations while achieving near-peak safety efficiently. These mechanisms enable TAO to outperform single-agent and multi-agent frameworks in 4 out of 5 healthcare safety benchmarks, showing up to an 8.2% improvement over the next-best methods in these evaluations. Finally, we validate TAO via an auxiliary clinician-in-the-loop study where integrating expert feedback improved TAO's accuracy in medical triage from 40% to 60%.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、そのパワーにもかかわらず、エラー検出の低さや単一障害点などの制限により、臨床環境での安全性のリスクを導入することができる。
これを解決するために、階層化された自動化監視を通じてAIの安全性を高める階層型マルチエージェントフレームワークであるTiered Agentic Oversight(TAO)を提案する。
臨床階層(看護師、医師、専門家など)にインスパイアされたTAOは、タスクの複雑さとエージェントの役割に基づいたエージェントルーティングを実行する。
自動化された層内コラボレーションとロールプレイを利用することで、TAOは堅牢な安全フレームワークを作成する。
アブレーション研究では、TAOの優れた性能は、静的な単一層構成と比較して安全性を3.2%向上させる適応型階層アーキテクチャ、より低い層、特に安全性に最も大きな影響を及ぼす層1のクリティカルな役割、そしてこれらの初期層へのより高度なLCMの戦略的割り当てにより、性能が2%以上向上すると同時に、最適でないアロケーションを効率よく達成すると同時に、パフォーマンスを2%以上向上する。
これらのメカニズムにより、TAOは5つの医療安全ベンチマークのうち4つでシングルエージェントとマルチエージェントフレームワークを上回り、これらの評価において次のベストメソッドよりも8.2%改善されている。
最後に, TAOの精度を40%から60%に向上させ, 専門家のフィードバックを取り入れた補助臨床医によるTAOの評価を行った。
関連論文リスト
- ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slow Reasoning for Robust Agent Defense [7.923638619678924]
既存の防御は、有害なユーザ入力や安全でないエージェントの振る舞いによって引き起こされる複雑なセマンティックリスクを捉えるのに苦労する“セーフティチェック(Safety Checks)”に依存している。
我々は新しい防衛フレームワーク ALRPHFS (Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning) を提案する。
ALRPHFS は,(1) リスクパターンの一般化可能な,バランスのとれたライブラリを反復的に洗練するオフライン対向自己学習ループ,(2) 検出効率と計算効率のバランスをとるオンライン階層型高速・低速推論エンジンの2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-05-25T18:31:48Z) - PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning [8.191214701984162]
マルチエージェントシステムは、複雑なタスクを完了させたり、協力したり、競合したりする自律エージェントとして、高度なAIモデルを活用する。
重要性は増しているが、マルチエージェントシステムの安全性はいまだに未調査である。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T19:08:29Z) - Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training [3.439579933384111]
Transformerベースのフレームワークは、テキスト記述と視覚情報を統合して、デバイスの規制分類を予測する。
このアプローチは90.4%の精度と97.9%のAUROCを実現し、テキストのみ(77.2%)と画像のみ(54.8%)のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2025-05-01T09:41:41Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - D-CIPHER: Dynamic Collaborative Intelligent Multi-Agent System with Planner and Heterogeneous Executors for Offensive Security [22.86304661035188]
D-CIPHERは、協調サイバーセキュリティCTF問題解決のためのマルチエージェントフレームワークである。
エージェントと異なる役割を持つエージェントを動的フィードバックループに統合し、複雑なタスクの推論を強化する。
NYU CTF Benchでは22.0%、Cybenchでは22.5%、HackTheBoxでは44.0%である。
論文 参考訳(メタデータ) (2025-02-15T23:43:18Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。