論文の概要: Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models
- arxiv url: http://arxiv.org/abs/2508.17674v2
- Date: Mon, 08 Sep 2025 18:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.92939
- Title: Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models
- Title(参考訳): LLMとAIエージェントの攻撃:大規模言語モデルに対する攻撃を埋め込む
- Authors: Qiming Guo, Jinwen Tang, Xingran Huang,
- Abstract要約: 埋め込みアタック(AEA)は、モデルアウトプットやAIエージェントにプロモーションや悪意のあるコンテンツを注入します。
AEAは,(1)サードパーティのサービス配信プラットフォームをハイジャックして敵のプロンプトに対処し,(2)バックドアのオープンソースチェックポイントを発行する,という2つの低コストベクタを運用している。
- 参考スコア(独自算出の注目度): 1.3063136334195187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Advertisement Embedding Attacks (AEA), a new class of LLM security threats that stealthily inject promotional or malicious content into model outputs and AI agents. AEA operate through two low-cost vectors: (1) hijacking third-party service-distribution platforms to prepend adversarial prompts, and (2) publishing back-doored open-source checkpoints fine-tuned with attacker data. Unlike conventional attacks that degrade accuracy, AEA subvert information integrity, causing models to return covert ads, propaganda, or hate speech while appearing normal. We detail the attack pipeline, map five stakeholder victim groups, and present an initial prompt-based self-inspection defense that mitigates these injections without additional model retraining. Our findings reveal an urgent, under-addressed gap in LLM security and call for coordinated detection, auditing, and policy responses from the AI-safety community.
- Abstract(参考訳): 私たちは、モデルアウトプットやAIエージェントに、プロモーションや悪意のあるコンテンツを密かに注入する、新たなLLMセキュリティ脅威のクラスであるEmbeding Attacks(AEA)を紹介します。
AEA は,(1) サードパーティのサービス配信プラットフォームをハイジャックして敵のプロンプトを抑える,(2) バックドアのオープンソースチェックポイントを攻撃データで微調整する,という2つの低コストベクタを運用している。
精度を低下させる従来の攻撃とは異なり、AEAは情報の整合性を覆い、プロパガンダ、ヘイトスピーチを正常に見せながら返却する。
攻撃パイプラインを詳述し、5つのステークホルダーの被害者グループをマップし、追加のモデル再訓練なしにこれらの注入を緩和する初期的プロンプトベースの自己検査防御を提示する。
我々の発見は、LLMのセキュリティと、AI安全コミュニティからの協調的な検出、監査、およびポリシー対応の要求において、緊急かつ過度に調整されていないギャップがあることを明らかにした。
関連論文リスト
- OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Agent2Agent Threats in Safety-Critical LLM Assistants: A Human-Centric Taxonomy [4.058281338403478]
本稿では,攻撃経路解析から資産識別を分離するAgentHeLLMという脅威モデリングフレームワークを提案する。
我々は、調和指向の「市民モデリング」から派生した人間中心の資産分類を導入し、人権の普遍宣言に触発された。
本稿では,オープンソースのアタックパス提案ツールであるAgentHeLLMアタックパスジェネレータを用いて,フレームワークの実用性を示す。
論文 参考訳(メタデータ) (2026-02-05T16:53:41Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.18472148461613155]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、前例のないセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLDMの安全性を総合的に評価する。
我々は、このような買収を組織するために、異なる攻撃面と信頼境界をどのように活用できるかに焦点を当てる。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents [36.49717045080722]
本稿では,ブロックチェーンベースの金融エコシステムにおけるAIエージェントの脆弱性を,現実のシナリオにおける敵対的脅威に曝露した場合に検討する。
保護されていないコンテキストサーフェスを利用する包括的攻撃ベクトルであるコンテキスト操作の概念を導入する。
ElizaOSを使用することで、不正なインジェクションをプロンプトや履歴レコードに注入することで、不正なアセット転送やプロトコル違反が引き起こされることを示す。
論文 参考訳(メタデータ) (2025-03-20T15:44:31Z) - UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models [30.139590566956077]
大規模言語モデル(LLM)は、迅速なインジェクション、バックドアアタック、敵攻撃のような攻撃に対して脆弱である。
我々は,LLMにおける即時注入,バックドア攻撃,敵攻撃を検出するために設計された,最初の統一防御機構であるUniGuardianを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:59:00Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。