論文の概要: Context Injection Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20234v1
- Date: Thu, 30 May 2024 16:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:19:40.108903
- Title: Context Injection Attacks on Large Language Models
- Title(参考訳): 大規模言語モデルにおける文脈注入攻撃
- Authors: Cheng'an Wei, Kai Chen, Yue Zhao, Yujia Gong, Lu Xiang, Shenchen Zhu,
- Abstract要約: ChatGPTやLlama-2のような大規模言語モデル(LLM)は、現実世界のアプリケーションで広く使われている。
提案手法は,製造コンテキストを導入し,無効な応答を誘発することを目的としたコンテキストインジェクション攻撃を行うための体系的手法である。
我々のコンテキスト作成戦略、受け入れ推論、および単語匿名化は、攻撃者にカスタマイズされたプロンプトテンプレートで構造化可能な誤解を招くコンテキストを効果的に生成する。
- 参考スコア(独自算出の注目度): 12.920884182101142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT and Llama-2 have become prevalent in real-world applications, exhibiting impressive text generation performance. LLMs are fundamentally developed from a scenario where the input data remains static and lacks a clear structure. To behave interactively over time, LLM-based chat systems must integrate additional contextual information (i.e., chat history) into their inputs, following a pre-defined structure. This paper identifies how such integration can expose LLMs to misleading context from untrusted sources and fail to differentiate between system and user inputs, allowing users to inject context. We present a systematic methodology for conducting context injection attacks aimed at eliciting disallowed responses by introducing fabricated context. This could lead to illegal actions, inappropriate content, or technology misuse. Our context fabrication strategies, acceptance elicitation and word anonymization, effectively create misleading contexts that can be structured with attacker-customized prompt templates, achieving injection through malicious user messages. Comprehensive evaluations on real-world LLMs such as ChatGPT and Llama-2 confirm the efficacy of the proposed attack with success rates reaching 97%. We also discuss potential countermeasures that can be adopted for attack detection and developing more secure models. Our findings provide insights into the challenges associated with the real-world deployment of LLMs for interactive and structured data scenarios.
- Abstract(参考訳): ChatGPT や Llama-2 のような大規模言語モデル (LLM) は、現実のアプリケーションで広く普及し、テキスト生成性能が著しく向上している。
LLMは、入力データが静的であり、明確な構造を持たないシナリオから基本的に開発されている。
LLMベースのチャットシステムは、時間とともに対話的に振る舞うためには、事前に定義された構造に従って、追加のコンテキスト情報(チャット履歴)を入力に組み込む必要がある。
本稿では,そのような統合が,信頼できないソースから誤解を招くコンテキストにLLMを公開し,システムとユーザ入力の区別に失敗し,ユーザがコンテキストを注入できるようにする方法について述べる。
提案手法は,製造コンテキストを導入し,無効な応答を誘発することを目的としたコンテキストインジェクション攻撃を行うための体系的手法である。
これは違法行為、不適切なコンテンツ、テクノロジーの誤用につながる可能性がある。
我々のコンテキスト作成戦略、受け入れ誘導、および単語匿名化は、悪意のあるユーザーメッセージを通じてインジェクションを達成し、攻撃者がカスタマイズしたプロンプトテンプレートで構造化できる誤解を招くコンテキストを効果的に生成する。
ChatGPT や Llama-2 のような実世界の LLM に関する総合的な評価は、提案された攻撃の有効性を確認し、成功率は 97% に達した。
また、攻撃検知やより安全なモデル開発に応用できる可能性についても論じる。
本研究は,対話型・構造化データシナリオにおけるLLMの現実的展開に関わる課題について考察した。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots [19.423566424346166]
本研究では,Large Language Model (LLM) ベースのチャットボットを用いて推薦システムを構築する。
チャットボットが不特定要求に遭うと、応答が悪くなるのを観察する。
我々は,このような誤った応答傾向は,アノテータを用いたLPM微調整に起因していると推測する。
論文 参考訳(メタデータ) (2024-06-01T15:54:45Z) - Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。