論文の概要: When AI Meets the Web: Prompt Injection Risks in Third-Party AI Chatbot Plugins
- arxiv url: http://arxiv.org/abs/2511.05797v1
- Date: Sat, 08 Nov 2025 02:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.582937
- Title: When AI Meets the Web: Prompt Injection Risks in Third-Party AI Chatbot Plugins
- Title(参考訳): AIがWebと出会う: サードパーティのAIチャットボットプラグインのインジェクションリスク
- Authors: Yigitcan Kaya, Anton Landerer, Stijn Pletinckx, Michelle Zimmermann, Christopher Kruegel, Giovanni Vigna,
- Abstract要約: 我々は,1万以上の公開ウェブサイトが使用している17のサードパーティプラグインについて,初めて大規模な調査を行った。
これらのプラグインのうち8つは、ネットワークリクエストで送信された会話履歴の整合性を強制できない。
EコマースのWebサイトの13%はすでに、そのチャットボットをサードパーティのコンテンツに公開している。
- 参考スコア(独自算出の注目度): 17.279238456399693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection attacks pose a critical threat to large language models (LLMs), with prior work focusing on cutting-edge LLM applications like personal copilots. In contrast, simpler LLM applications, such as customer service chatbots, are widespread on the web, yet their security posture and exposure to such attacks remain poorly understood. These applications often rely on third-party chatbot plugins that act as intermediaries to commercial LLM APIs, offering non-expert website builders intuitive ways to customize chatbot behaviors. To bridge this gap, we present the first large-scale study of 17 third-party chatbot plugins used by over 10,000 public websites, uncovering previously unknown prompt injection risks in practice. First, 8 of these plugins (used by 8,000 websites) fail to enforce the integrity of the conversation history transmitted in network requests between the website visitor and the chatbot. This oversight amplifies the impact of direct prompt injection attacks by allowing adversaries to forge conversation histories (including fake system messages), boosting their ability to elicit unintended behavior (e.g., code generation) by 3 to 8x. Second, 15 plugins offer tools, such as web-scraping, to enrich the chatbot's context with website-specific content. However, these tools do not distinguish the website's trusted content (e.g., product descriptions) from untrusted, third-party content (e.g., customer reviews), introducing a risk of indirect prompt injection. Notably, we found that ~13% of e-commerce websites have already exposed their chatbots to third-party content. We systematically evaluate both vulnerabilities through controlled experiments grounded in real-world observations, focusing on factors such as system prompt design and the underlying LLM. Our findings show that many plugins adopt insecure practices that undermine the built-in LLM safeguards.
- Abstract(参考訳): プロンプトインジェクション攻撃は大きな言語モデル(LLM)にとって重大な脅威となり、以前の作業はパーソナル・コピロのような最先端のLLMアプリケーションに焦点を当てていた。
対照的に、カスタマーサービスチャットボットのようなシンプルなLLMアプリケーションは、Web上で広く使われているが、そのセキュリティ姿勢や攻撃に対する露出は理解されていない。
これらのアプリケーションは、チャットボットの振る舞いを直感的にカスタマイズする非専門のWebサイトビルダーを提供する、商用のLLM APIの仲介をするサードパーティのチャットボットプラグインに依存していることが多い。
このギャップを埋めるために、我々は1万以上の公開ウェブサイトが使用している17のサードパーティ製チャットボットプラグインについて大規模な調査を行った。
まず、8つのプラグイン(8,000のWebサイトが使用している)は、Webサイト訪問者とチャットボット間のネットワークリクエストで送信される会話履歴の整合性を強制することができない。
この監視は、相手が会話履歴(フェイクシステムメッセージを含む)を偽造することを許し、意図しない動作(例えばコード生成)を3倍から8倍に増やすことで、直接のプロンプトインジェクション攻撃の影響を増幅する。
第二に15のプラグインは、Webスクラッピングのようなツールを提供し、チャットボットのコンテキストをWebサイト固有のコンテンツで豊かにする。
しかし、これらのツールは、ウェブサイトの信頼できるコンテンツ(例:製品説明)と信頼できないサードパーティのコンテンツ(例:顧客レビュー)とを区別せず、間接的なプロンプトインジェクションのリスクをもたらす。
とくに、eコマースのWebサイトの約13%が、すでにチャットボットをサードパーティのコンテンツに公開している。
実世界の観測に基礎を置く制御実験を通じて,システムプロンプト設計や基礎となるLLMなどの要因に着目し,両脆弱性を系統的に評価する。
以上の結果から,多くのプラグインがLLMセーフガードを損なう安全でないプラクティスを採用していることが示唆された。
関連論文リスト
- ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents [15.773168171609754]
ChatInjectは、悪意のあるペイロードをフォーマットしてネイティブチャットテンプレートを模倣する攻撃である。
我々は,会話の交互にエージェントを素数化して不審な行為を受け入れ,実行させる,説得駆動型マルチターン変異体を開発した。
ChatInjectは従来のプロンプトインジェクション法よりも平均的な攻撃成功率が高い。
論文 参考訳(メタデータ) (2025-09-26T18:38:07Z) - Ask ChatGPT: Caveats and Mitigations for Individual Users of AI Chatbots [10.977907906989342]
ChatGPTや他のLLM(Large Language Model)ベースのAIチャットボットは、個人の日常生活にますます統合される。
これらのシステムが個々のユーザーにどのような懸念とリスクをもたらすのか?
それらが引き起こす可能性のある潜在的な害は、どのように軽減されるのか?
論文 参考訳(メタデータ) (2025-08-14T01:40:13Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - SafeChat: A Framework for Building Trustworthy Collaborative Assistants and a Case Study of its Usefulness [4.896226014796392]
SafeChatは、安全で信頼性の高いチャットボットを構築するための一般的なアーキテクチャです。
SafeChatの主な特徴は、 (a) 応答が承認されたソース(保証)に対して基礎付けられてトレース可能なドメインに依存しない設計による安全性、 (b) ユーザビリティ、長いレスポンスの自動抽出によるソースへのトレーサビリティ、 (c) CSV駆動ワークフロー、自動テスト、各種デバイスとの統合を含む、高速でスケーラブルな開発である。
論文 参考訳(メタデータ) (2025-04-08T19:16:43Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。
映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。
我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - SPML: A DSL for Defending Language Models Against Prompt Attacks [4.511923587827302]
System Prompt Meta Language (SPML)は、大規模言語モデル(LLM)へのインプットの精製と監視を行うドメイン固有言語である。
SPMLは攻撃プロンプトを積極的にチェックし、ユーザ入力と定義との整合性を確保し、LLMバックボーン上で悪意のある実行を防止し、コストを最適化する。
我々は、1.8kシステムプロンプトと20kユーザインプットを備えた画期的なベンチマークを導入し、チャットボット定義評価のための最初の言語とベンチマークを提供する。
論文 参考訳(メタデータ) (2024-02-19T00:53:48Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。