論文の概要: Targeted Bit-Flip Attacks on LLM-Based Agents
- arxiv url: http://arxiv.org/abs/2603.10042v1
- Date: Sat, 07 Mar 2026 04:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.583301
- Title: Targeted Bit-Flip Attacks on LLM-Based Agents
- Title(参考訳): LLMエージェントにおけるターゲットビットフリップ攻撃
- Authors: Jialai Wang, Ya Wen, Zhongmou Liu, Yuxiao Wu, Bingyi He, Zongpeng Li, Ee-Chien Chang,
- Abstract要約: この研究は、LLMベースのエージェントのための最初のターゲットビットフリップ攻撃フレームワークであるFlip-Agentを紹介した。
実験の結果,Flip-Agentは実世界のエージェントタスクにおいて,既存のBFAよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 9.963281296730896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeted bit-flip attacks (BFAs) exploit hardware faults to manipulate model parameters, posing a significant security threat. While prior work targets single-step inference models (e.g., image classifiers), LLM-based agents with multi-stage pipelines and external tools present new attack surfaces, which remain unexplored. This work introduces Flip-Agent, the first targeted BFA framework for LLM-based agents, manipulating both final outputs and tool invocations. Our experiments show that Flip-Agent significantly outperforms existing targeted BFAs on real-world agent tasks, revealing a critical vulnerability in LLM-based agent systems.
- Abstract(参考訳): ターゲットのビットフリップ攻撃(BFA)は、ハードウェアの欠陥を利用してモデルパラメータを操作する。
以前の作業ではシングルステップの推論モデル(イメージ分類器など)を対象としていたが、マルチステージパイプラインと外部ツールを備えたLLMベースのエージェントは、探索されていない新たなアタックサーフェスを提示する。
Flip-AgentはLLMベースのエージェントをターゲットとする最初のBFAフレームワークで、最終的な出力とツールの実行の両方を操作する。
実験の結果、Flip-Agentは実世界のエージェントタスクにおいて既存のBFAよりも大幅に優れており、LLMベースのエージェントシステムに重大な脆弱性があることが判明した。
関連論文リスト
- AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks [10.74152341304056]
我々はAgentLABを,適応型長期攻撃に対するエージェント感受性を評価するための最初のベンチマークとして提示する。
AgentLABはインテントハイジャック、ツールチェーン、タスクインジェクション、客観的ドリフト、メモリ中毒を含む5つの新しい攻撃タイプをサポートしている。
LLMの代表的エージェントは、長期にわたる攻撃の影響を受けやすいままである。
論文 参考訳(メタデータ) (2026-02-18T21:30:20Z) - Automatic Red Teaming LLM-based Agents with Model Context Protocol Tools [47.32559576064343]
我々は、悪意のあるMPPツールを生成することで、LSMベースのエージェントのための自動レッドチーム化フレームワークであるAutoMalToolを提案する。
評価の結果,AutoMalToolは主要なLCMエージェントの動作を制御できる悪意のあるMPPツールを効果的に生成できることがわかった。
論文 参考訳(メタデータ) (2025-09-25T11:14:38Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。