論文の概要: Research on Security Enhancement Methods for Adversarial Robust Large Language Model Intelligent Agents for Medical Decision-Making Tasks
- arxiv url: http://arxiv.org/abs/2605.08257v1
- Date: Thu, 07 May 2026 21:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.505776
- Title: Research on Security Enhancement Methods for Adversarial Robust Large Language Model Intelligent Agents for Medical Decision-Making Tasks
- Title(参考訳): 医学的意思決定タスクのための対人ロバスト大言語モデルインテリジェントエージェントのセキュリティ向上手法に関する研究
- Authors: Saisai Hu,
- Abstract要約: 本研究は, 知的エージェントによる医療意思決定における敵の堅牢性, セキュリティ, 信頼を向上するための課題として, フルリンクセキュリティ強化フレームワークを開発する。
我々はARSM-Agentを提案し、意思決定精度の損失、敵の損失、安全性の低下、知識の整合性損失からなる重み付けされた共同目的を定義する。
セマンティック摂動、即発注射、薬物名混乱、偽証拠攻撃により、ARSM-Agentは全体の攻撃成功率を8.7%に下げ、知識一貫性スコア0.91を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the challenge to improve the adversarial robustness, security, and trust of medical decision making intelligent agents, this study develops a full-link security enhancement framework, which describes "input risk perception - medical evidence constraint - knowledge consistency verification - decision confidence reweighting - security output control - adversarial feedback update." We propose ARSM-Agent and define a weighted joint objective consisting of decision accuracy loss, adversarial robustness loss, safety refusal loss, and knowledge consistency loss, with weights of 0.3, 0.3, 0.2, and 0.2, respectively. The whole medical decision formulation is implemented by multi-module collaborative linkage. We verify that the algorithm is more efficient than four baselines, including LLM-Agent, Retrieval-Agent, Filter-Agent, and Adv-Train-Agent. Under semantic perturbation, prompt injection, drug-name confusion, and false-evidence attacks, ARSM-Agent reduces the overall attack success rate to 8.7% and achieves a knowledge consistency score of 0.91. Ablation experiments quantify each module's contribution: removing risk perception, evidence retrieval, consistency verification, and confidence reweighting reduces accuracy by 6.7%, 9.1%, 7.6%, and 4.4%, respectively, and increases attack success rate by 13.8%, 11.1%, 8.6%, and 6.9%. The proposed approach addresses key security issues of medical decision making intelligent agents, obtains secure decision making in challenging scenarios, and provides reliable intelligent support for medical decision-making intelligent agents.
- Abstract(参考訳): 本研究は, 知的エージェントによる医療意思決定の敵意的堅牢性, セキュリティ, 信頼の向上を目標として, 「インプットリスク認識, 医療証拠制約, 知識整合性検証, 意思決定信頼回復, セキュリティアウトプット制御, 敵のフィードバック更新」を記述したフルリンクセキュリティ強化フレームワークを開発する。
提案するARSM-Agentは,それぞれ0.3,0.3,0.2,0.2の重みを持つ決定精度損失,対向ロバスト性損失,安全拒絶損失,知識の整合性損失からなる重み付き関節目標を定義する。
医療的決定の定式化は多モジュール協調リンクによって実施される。
LLM-Agent, Retrieval-Agent, Filter-Agent, Adv-Train-Agent の4つのベースラインよりも効率的であることが確認された。
セマンティック摂動、即発注射、薬物名混乱、偽証拠攻撃により、ARSM-Agentは全体の攻撃成功率を8.7%に下げ、知識一貫性スコア0.91を達成する。
リスク認識、証拠検索、一貫性検証、信頼の再重み付けの除去は、それぞれ6.7%、9.1%、7.6%、および4.4%の精度を低下させ、攻撃成功率を13.8%、11.1%、8.6%、および6.9%に向上させる。
提案手法は, 医用意思決定知的エージェントの重要なセキュリティ問題に対処し, 挑戦シナリオにおけるセキュアな意思決定を実現し, 医療用意思決定知的エージェントに対する信頼性の高いインテリジェントサポートを提供する。
関連論文リスト
- Safety and accuracy follow different scaling laws in clinical large language models [4.212844425331427]
RadSaFE-200は、臨床医が定義したクリーンエビデンス、競合するエビデンス、リスクの高いエラー、安全でない答え、エビデンスに対するオプションレベルのラベルを含む200の多重選択質問のベンチマークである。
クリーンエビデンスにより、平均精度は73.5%から94.1%に向上し、ハイリスクエラーは12.0%から2.6%に減少した。
標準RAGとエージェントRAGはこの安全プロファイルを再現しなかったが、リスクの高いエラーと危険な過信は高いままであった。
論文 参考訳(メタデータ) (2026-05-05T17:57:19Z) - Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA [0.0]
マルチエージェントフレームワークはドメイン固有の特殊エージェントとTwo-Phase VerificationとS-Score Weighted Fusionを組み合わせたものだ。
4つの専門エージェントがQwen2.5-7B-Instructを使用して独立した診断を生成する。
Sスコアは最終回答を選択する重み付き融合戦略を推進し、信頼性を報告している。
論文 参考訳(メタデータ) (2026-03-25T16:22:53Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - Improving the Safety and Trustworthiness of Medical AI via Multi-Agent Evaluation Loops [1.412167203558403]
大規模言語モデル(LLM)は、医療にますます適用されているが、倫理的整合性と安全性の遵守は、臨床展開にとって大きな障壁である。
本研究は、構造的かつ反復的なアライメントによる医療用LCMの安全性と信頼性を高めるために設計されたマルチエージェント・リファインメント・フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-19T18:10:34Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。