論文の概要: Agent2Agent Threats in Safety-Critical LLM Assistants: A Human-Centric Taxonomy
- arxiv url: http://arxiv.org/abs/2602.05877v1
- Date: Thu, 05 Feb 2026 16:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.061327
- Title: Agent2Agent Threats in Safety-Critical LLM Assistants: A Human-Centric Taxonomy
- Title(参考訳): 安全臨界LDMアシスタントにおけるエージェント2Aの脅威--ヒト中心分類学
- Authors: Lukas Stappen, Ahmet Erkan Turan, Johann Hagerer, Georg Groh,
- Abstract要約: 本稿では,攻撃経路解析から資産識別を分離するAgentHeLLMという脅威モデリングフレームワークを提案する。
我々は、調和指向の「市民モデリング」から派生した人間中心の資産分類を導入し、人権の普遍宣言に触発された。
本稿では,オープンソースのアタックパス提案ツールであるAgentHeLLMアタックパスジェネレータを用いて,フレームワークの実用性を示す。
- 参考スコア(独自算出の注目度): 4.058281338403478
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of Large Language Model (LLM)-based conversational agents into vehicles creates novel security challenges at the intersection of agentic AI, automotive safety, and inter-agent communication. As these intelligent assistants coordinate with external services via protocols such as Google's Agent-to-Agent (A2A), they establish attack surfaces where manipulations can propagate through natural language payloads, potentially causing severe consequences ranging from driver distraction to unauthorized vehicle control. Existing AI security frameworks, while foundational, lack the rigorous "separation of concerns" standard in safety-critical systems engineering by co-mingling the concepts of what is being protected (assets) with how it is attacked (attack paths). This paper addresses this methodological gap by proposing a threat modeling framework called AgentHeLLM (Agent Hazard Exploration for LLM Assistants) that formally separates asset identification from attack path analysis. We introduce a human-centric asset taxonomy derived from harm-oriented "victim modeling" and inspired by the Universal Declaration of Human Rights, and a formal graph-based model that distinguishes poison paths (malicious data propagation) from trigger paths (activation actions). We demonstrate the framework's practical applicability through an open-source attack path suggestion tool AgentHeLLM Attack Path Generator that automates multi-stage threat discovery using a bi-level search strategy.
- Abstract(参考訳): 大型言語モデル(LLM)ベースの会話エージェントを車両に統合することで、エージェントAI、自動車安全性、エージェント間通信の交差点において、新たなセキュリティ上の課題が生じる。
これらのインテリジェントアシスタントは、GoogleのAgent-to-Agent (A2A)のようなプロトコルを介して外部サービスと連携するため、自然言語ペイロードを介して操作が伝播可能な攻撃面を確立し、運転者の注意散らしから不正な車両制御まで重大な結果をもたらす可能性がある。
既存のAIセキュリティフレームワークは、基本的ではあるが、安全クリティカルなシステムエンジニアリングにおいて厳格な"関心の分離"標準を欠いている。
本稿では,AgentHeLLM (Agent Hazard Exploration for LLM Assistants) と呼ばれる攻撃経路解析からアセット識別を正式に分離する脅威モデリングフレームワークを提案する。
本稿では,害指向の「被害者モデリング」から派生し,人権宣言にインスパイアされた人間中心の資産分類と,毒道(有害なデータ伝播)をトリガーパス(アクティベーションアクション)と区別する形式的なグラフベースのモデルを紹介する。
本稿では,オープンソースのアタックパス提案ツールであるAgentHeLLMアタックパスジェネレータを用いて,双方向の検索戦略を用いて多段階の脅威発見を自動化することにより,フレームワークの実用性を実証する。
関連論文リスト
- BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Security Risks of Agentic Vehicles: A Systematic Analysis of Cognitive and Cross-Layer Threats [0.38978027689073086]
エージェントAIは、手動運転と自律走行の両方で研究され、導入されている。
本稿では,エージェント層に影響を及ぼす他の層からのサイバー攻撃を含む,AgVのセキュリティ脅威について検討する。
重度行列とアタックチェーン分析は、小さな歪みがいかに不整合あるいは不安全な振る舞いにエスカレートするかを示している。
論文 参考訳(メタデータ) (2025-12-18T20:04:21Z) - AutoBackdoor: Automating Backdoor Attacks via LLM Agents [35.216857373810875]
バックドア攻撃は、大規模言語モデル(LLM)の安全なデプロイに深刻な脅威をもたらす
本研究では,バックドアインジェクションを自動化するための一般的なフレームワークであるtextscAutoBackdoorを紹介する。
従来のアプローチとは異なり、AutoBackdoorは強力な言語モデルエージェントを使用して、セマンティックコヒーレントでコンテキスト対応のトリガーフレーズを生成する。
論文 参考訳(メタデータ) (2025-11-20T03:58:54Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - ATAG: AI-Agent Application Threat Assessment with Attack Graphs [23.757154032523093]
本稿では,Attack Graphs (ATAG) を用いたAIエージェントアプリケーションThreatアセスメントを提案する。
ATAGは、AIエージェントアプリケーションに関連するセキュリティリスクを体系的に分析するために設計された、新しいフレームワークである。
マルチエージェントアプリケーションにおけるAIエージェント脅威の積極的な識別と緩和を容易にする。
論文 参考訳(メタデータ) (2025-06-03T13:25:40Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。