論文の概要: Attacks by Content: Automated Fact-checking is an AI Security Issue
- arxiv url: http://arxiv.org/abs/2510.11238v1
- Date: Mon, 13 Oct 2025 10:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.3182
- Title: Attacks by Content: Automated Fact-checking is an AI Security Issue
- Title(参考訳): コンテンツによる攻撃:AIのセキュリティ問題である自動ファクトチェック
- Authors: Michael Schlichtkrull,
- Abstract要約: これまでの研究では、攻撃者が悪意のある指示を注入する間接的なプロンプトインジェクションが研究されてきた。
我々は、エージェントを操作するために命令の注入は必要ないと主張する。
隠れたコマンドを検出することに焦点を当てた既存の防御は、コンテンツによる攻撃に対して効果がない。
- 参考スコア(独自算出の注目度): 1.5770741892463622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When AI agents retrieve and reason over external documents, adversaries can manipulate the data they receive to subvert their behaviour. Previous research has studied indirect prompt injection, where the attacker injects malicious instructions. We argue that injection of instructions is not necessary to manipulate agents - attackers could instead supply biased, misleading, or false information. We term this an attack by content. Existing defenses, which focus on detecting hidden commands, are ineffective against attacks by content. To defend themselves and their users, agents must critically evaluate retrieved information, corroborating claims with external evidence and evaluating source trustworthiness. We argue that this is analogous to an existing NLP task, automated fact-checking, which we propose to repurpose as a cognitive self-defense tool for agents.
- Abstract(参考訳): AIエージェントが外部文書の検索と推論を行うと、敵は受信したデータを操作して振る舞いを覆すことができる。
これまでの研究では、攻撃者が悪意のある指示を注入する間接的なプロンプトインジェクションが研究されてきた。
我々は、エージェントを操作するために命令の注入は必要ないと主張する。
これを内容による攻撃と表現する。
隠れたコマンドを検出することに焦点を当てた既存の防御は、コンテンツによる攻撃に対して効果がない。
自分自身とそのユーザを守るために、エージェントは検索した情報を批判的に評価し、外部の証拠とクレームを相関させ、ソースの信頼性を評価する必要がある。
これは既存のNLPタスクである自動ファクトチェックと類似しており、エージェントのための認知自己防衛ツールとして再利用することを提案する。
関連論文リスト
- To Defend Against Cyber Attacks, We Must Teach AI Agents to Hack [14.333336222782856]
AIエージェントは、数千のターゲットにわたる脆弱性発見とエクスプロイトを自動化する。
現在の開発者は、データフィルタリング、安全アライメント、出力ガードレールによる誤用を防止することに重点を置いている。
AIエージェントによるサイバー攻撃は避けられないものであり、防御戦略の根本的な変更が必要であると我々は主張する。
論文 参考訳(メタデータ) (2026-02-01T12:37:55Z) - Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。
バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文 参考訳(メタデータ) (2025-10-04T07:11:11Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - In-Context Defense in Computer Agents: An Empirical Study [19.734768644310414]
我々は,テキスト・コンテクスト・ディフェンスを導入し,コンテキスト内学習とチェーン・オブ・シークレット・推論を活用して攻撃に対処する。
我々のアプローチは、悪意のある環境とそれに対応する防御応答の両方を含む、慎重にキュレートされた例題の小さなセットでエージェントのコンテキストを増強することである。
提案手法の有効性を実証し, ポップアップウィンドウ攻撃では91.2%, 環境注入攻撃では74.6%, 邪魔広告に対しては100%の防御効果が得られた。
論文 参考訳(メタデータ) (2025-03-12T10:38:15Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。