論文の概要: Many-to-One Adversarial Consensus: Exposing Multi-Agent Collusion Risks in AI-Based Healthcare
- arxiv url: http://arxiv.org/abs/2512.03097v1
- Date: Mon, 01 Dec 2025 12:17:28 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:11:57.996014
- Title: Many-to-One Adversarial Consensus: Exposing Multi-Agent Collusion Risks in AI-Based Healthcare
- Title(参考訳): 多対一のコンセンサス:AIベースの医療における複数エージェントの衝突リスクを露呈する
- Authors: Adeela Bashir, The Anh han, Zia Ush Shamszaman,
- Abstract要約: 大規模言語モデル(LLM)が医療用IoTシステムに統合されている。
LLMは多エージェントチームとしてデプロイされ、AI医師の議論、投票、決定の助言によって支援される。
しかし、複数のアシスタントエージェントが相互作用すると、調整された敵が共謀して偽のコンセンサスを生み出す。
我々は,無防備なシステムにおいて,共謀がASR(Attack Success Rate)とHRR(Harmful Recommendation Rate)を最大100%推進することを示す。
- 参考スコア(独自算出の注目度): 0.5762370419838222
- License:
- Abstract: The integration of large language models (LLMs) into healthcare IoT systems promises faster decisions and improved medical support. LLMs are also deployed as multi-agent teams to assist AI doctors by debating, voting, or advising on decisions. However, when multiple assistant agents interact, coordinated adversaries can collude to create false consensus, pushing an AI doctor toward harmful prescriptions. We develop an experimental framework with scripted and unscripted doctor agents, adversarial assistants, and a verifier agent that checks decisions against clinical guidelines. Using 50 representative clinical questions, we find that collusion drives the Attack Success Rate (ASR) and Harmful Recommendation Rates (HRR) up to 100% in unprotected systems. In contrast, the verifier agent restores 100% accuracy by blocking adversarial consensus. This work provides the first systematic evidence of collusion risk in AI healthcare and demonstrates a practical, lightweight defence that ensures guideline fidelity.
- Abstract(参考訳): 医療用IoTシステムへの大規模言語モデル(LLM)の統合は、迅速な意思決定と医療サポートの向上を約束する。
LLMはまた、AI医師を議論したり、投票したり、決定について助言したりすることで支援するために、マルチエージェントチームとしてデプロイされる。
しかし、複数のアシスタントエージェントが相互作用すると、調整された敵が共謀して偽のコンセンサスを発生させ、AI医師を有害な処方薬に押し付ける。
本研究は, 臨床ガイドラインに反する判断を検証するための, スクリプト化・無記述の医師エージェント, 敵アシスタント, 検証エージェントを用いた実験フレームワークを開発する。
代表的な50の臨床的質問から,無防備なシステムでは,衝突がASR(Attack Success Rate)とHRR(Harmful Recommendation Rates)を最大100%推進することがわかった。
対照的に、検証エージェントは、反対のコンセンサスをブロックすることにより100%の精度を復元する。
この研究は、AI医療における共謀リスクの最初の体系的な証拠を提供し、ガイドラインの忠実性を保証する実践的で軽量な防御を実証する。
関連論文リスト
- DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - Towards physician-centered oversight of conversational diagnostic AI [40.583050959984995]
患者安全の現実的な保証は、個々の診断と治療計画を提供することが、認可された専門家による規制活動であることを意味する。
そこで我々は,Articulate Medical Intelligence Explorer (AMIE) AIシステムの効果的な非同期監視のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T15:54:36Z) - Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T17:59:50Z) - PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning [8.191214701984162]
マルチエージェントシステムは、複雑なタスクを完了させたり、協力したり、競合したりする自律エージェントとして、高度なAIモデルを活用する。
重要性は増しているが、マルチエージェントシステムの安全性はいまだに未調査である。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T19:08:29Z) - Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks [51.00472376469131]
多様な介護者対応を訓練することで、ロバストな介護者の方針を学習する枠組みを提案する。
一般的な深層RL法で訓練されたポリシーは、他のエージェントのポリシーの変更に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-03-01T08:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。