論文の概要: Prompt-in-Content Attacks: Exploiting Uploaded Inputs to Hijack LLM Behavior
- arxiv url: http://arxiv.org/abs/2508.19287v1
- Date: Mon, 25 Aug 2025 05:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.34945
- Title: Prompt-in-Content Attacks: Exploiting Uploaded Inputs to Hijack LLM Behavior
- Title(参考訳): プロンプト・イン・コンテント・アタック: ハイジャックLDM動作に対する過負荷入力の爆発
- Authors: Zhuotao Lian, Weiyu Wang, Qingkui Zeng, Toru Nakanishi, Teruaki Kitasuka, Chunhua Su,
- Abstract要約: LLM(Large Language Models)は、ユーザが提出したコンテンツを受け入れるアプリケーションに広くデプロイされている。
本稿では,コンテンツインジェクションにおける新たな攻撃のクラスを同定する。
- 参考スコア(独自算出の注目度): 3.715687323488774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely deployed in applications that accept user-submitted content, such as uploaded documents or pasted text, for tasks like summarization and question answering. In this paper, we identify a new class of attacks, prompt in content injection, where adversarial instructions are embedded in seemingly benign inputs. When processed by the LLM, these hidden prompts can manipulate outputs without user awareness or system compromise, leading to biased summaries, fabricated claims, or misleading suggestions. We demonstrate the feasibility of such attacks across popular platforms, analyze their root causes including prompt concatenation and insufficient input isolation, and discuss mitigation strategies. Our findings reveal a subtle yet practical threat in real-world LLM workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)は、要約や質問応答といったタスクのために、アップロードされた文書やペーストされたテキストなどのユーザー投稿されたコンテンツを受け入れるアプリケーションに広くデプロイされている。
本稿では,コンテンツインジェクションにおける新たな攻撃のクラスを同定する。
LLMによって処理されると、これらの隠されたプロンプトは、ユーザの認識やシステムの妥協なしに出力を操作でき、バイアスのある要約、製造されたクレーム、誤解を招く提案につながる。
本稿では,このような攻撃の可能性を示すとともに,迅速な連結化や入力分離の不十分さを含む根本原因を分析し,緩和戦略について議論する。
実世界のLLMワークフローでは,微妙ながら実用的な脅威がみられた。
関連論文リスト
- Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Breaking the Prompt Wall (I): A Real-World Case Study of Attacking ChatGPT via Lightweight Prompt Injection [12.565784666173277]
本報告では,ChatGPTのような大規模言語モデルプラットフォームに対して,インジェクションのプロンプトがどう作用するかを示す実例を示す。
本稿では,ユーザ入力や Web ベース検索,システムレベルのエージェント命令を通じて,敵対的プロンプトをインジェクションする方法を示す。
論文 参考訳(メタデータ) (2025-04-20T05:59:00Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of
LLMs through a Global Scale Prompt Hacking Competition [8.560772603154545]
大規模な言語モデルは、インジェクションとジェイルブレイクの即時実行に対して脆弱である。
われわれはグローバルなプロンプト・ハッキング・コンペティションを開催する。
我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。
論文 参考訳(メタデータ) (2023-10-24T18:18:11Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。