Fugu-MT 論文翻訳(概要): Attacks by Content: Automated Fact-checking is an AI Security Issue

論文の概要: Attacks by Content: Automated Fact-checking is an AI Security Issue

arxiv url: http://arxiv.org/abs/2510.11238v1
Date: Mon, 13 Oct 2025 10:18:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:30.3182
Title: Attacks by Content: Automated Fact-checking is an AI Security Issue
Title（参考訳）: コンテンツによる攻撃:AIのセキュリティ問題である自動ファクトチェック
Authors: Michael Schlichtkrull,
Abstract要約: これまでの研究では、攻撃者が悪意のある指示を注入する間接的なプロンプトインジェクションが研究されてきた。我々は、エージェントを操作するために命令の注入は必要ないと主張する。隠れたコマンドを検出することに焦点を当てた既存の防御は、コンテンツによる攻撃に対して効果がない。
参考スコア（独自算出の注目度）: 1.5770741892463622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When AI agents retrieve and reason over external documents, adversaries can manipulate the data they receive to subvert their behaviour. Previous research has studied indirect prompt injection, where the attacker injects malicious instructions. We argue that injection of instructions is not necessary to manipulate agents - attackers could instead supply biased, misleading, or false information. We term this an attack by content. Existing defenses, which focus on detecting hidden commands, are ineffective against attacks by content. To defend themselves and their users, agents must critically evaluate retrieved information, corroborating claims with external evidence and evaluating source trustworthiness. We argue that this is analogous to an existing NLP task, automated fact-checking, which we propose to repurpose as a cognitive self-defense tool for agents.
Abstract（参考訳）: AIエージェントが外部文書の検索と推論を行うと、敵は受信したデータを操作して振る舞いを覆すことができる。これまでの研究では、攻撃者が悪意のある指示を注入する間接的なプロンプトインジェクションが研究されてきた。我々は、エージェントを操作するために命令の注入は必要ないと主張する。これを内容による攻撃と表現する。隠れたコマンドを検出することに焦点を当てた既存の防御は、コンテンツによる攻撃に対して効果がない。自分自身とそのユーザを守るために、エージェントは検索した情報を批判的に評価し、外部の証拠とクレームを相関させ、ソースの信頼性を評価する必要がある。これは既存のNLPタスクである自動ファクトチェックと類似しており、エージェントのための認知自己防衛ツールとして再利用することを提案する。

関連論文リスト

Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文参考訳（メタデータ） (2025-10-04T07:11:11Z)
Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文参考訳（メタデータ） (2025-10-03T12:47:21Z)
Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。攻撃パラダイムを初期感染と持続性という2つの段階に分類する。当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文参考訳（メタデータ） (2025-09-19T04:10:52Z)
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文参考訳（メタデータ） (2025-04-22T17:51:03Z)
MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。 AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。 AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文参考訳（メタデータ） (2024-06-19T08:55:56Z)
Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文参考訳（メタデータ） (2022-07-20T19:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。