論文の概要: Separator Injection Attack: Uncovering Dialogue Biases in Large Language Models Caused by Role Separators
- arxiv url: http://arxiv.org/abs/2504.05689v1
- Date: Tue, 08 Apr 2025 05:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:43.724886
- Title: Separator Injection Attack: Uncovering Dialogue Biases in Large Language Models Caused by Role Separators
- Title(参考訳): セパレータインジェクション攻撃:ロールセパレータによる大言語モデルにおける対話バイアスの発見
- Authors: Xitao Li, Haijun Wang, Jiang Wu, Ting Liu,
- Abstract要約: 役割セパレータは、会話で異なる参加者を区別するために使用される。
ロールの誤用はインジェクション攻撃を引き起こす可能性があるため、モデルの振る舞いをユーザの意図と簡単に間違える可能性がある。
我々は,ロールセパレータに基づく新しい正弦波攻撃であるセパレータインジェクションアタック(SIA)を開発した。
- 参考スコア(独自算出の注目度): 18.00739443633401
- License:
- Abstract: Conversational large language models (LLMs) have gained widespread attention due to their instruction-following capabilities. To ensure conversational LLMs follow instructions, role separators are employed to distinguish between different participants in a conversation. However, incorporating role separators introduces potential vulnerabilities. Misusing roles can lead to prompt injection attacks, which can easily misalign the model's behavior with the user's intentions, raising significant security concerns. Although various prompt injection attacks have been proposed, recent research has largely overlooked the impact of role separators on safety. This highlights the critical need to thoroughly understand the systemic weaknesses in dialogue systems caused by role separators. This paper identifies modeling weaknesses caused by role separators. Specifically, we observe a strong positional bias associated with role separators, which is inherent in the format of dialogue modeling and can be triggered by the insertion of role separators. We further develop the Separators Injection Attack (SIA), a new orthometric attack based on role separators. The experiment results show that SIA is efficient and extensive in manipulating model behavior with an average gain of 18.2% for manual methods and enhances the attack success rate to 100% with automatic methods.
- Abstract(参考訳): 対話型大規模言語モデル (LLM) は命令追従能力によって広く注目を集めている。
会話のLLMが指示に従うことを保証するために、会話の異なる参加者を区別するためにロールセパレータが使用される。
しかし、ロールセパレータを組み込むことで潜在的な脆弱性がもたらされる。
ロールの誤用はインジェクション攻撃を引き起こす可能性があるため、モデルの振る舞いをユーザの意図と誤認し、重大なセキュリティ上の懸念を生じさせる可能性がある。
様々な即発注射攻撃が提案されているが、近年の研究では、ロールセパレータの安全性への影響を概ね見落としている。
このことは、ロールセパレータによって引き起こされる対話システムにおけるシステム的弱点を徹底的に理解する重要な必要性を強調している。
本稿では,ロールセパレータによるモデリングの弱点を特定する。
具体的には,ロールセパレータに係わる強い位置バイアスを観察する。これは対話の形式に固有のものであり,ロールセパレータの挿入によって引き起こされる。
我々はさらに、ロールセパレータに基づく新しい正弦波攻撃であるセパレータインジェクションアタック(SIA)を開発した。
実験の結果,SIAは手作業で平均18.2%の利得でモデル動作を効果的かつ広範囲に操作でき,自動手法で攻撃成功率を100%に向上することがわかった。
関連論文リスト
- Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。
提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。
このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文 参考訳(メタデータ) (2024-10-18T03:26:06Z) - Role-Play Paradox in Large Language Models: Reasoning Performance Gains and Ethical Dilemmas [7.677029165197536]
大型言語モデル(LLM)におけるロールプレイは、文脈的に関連性があり高品質な応答を生成する能力を高める。
本稿では,モデルの役割を自動選択する手法であるオートチューニングが,有害なアウトプットの生成につながることを実証する。
論文 参考訳(メタデータ) (2024-09-21T02:09:13Z) - BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model [12.617285298415013]
大規模言語モデル(LLM)の急速な進歩はロールプレイングに革命をもたらし、一般的なロールプレイングモデルの開発を可能にした。
現在のロールプレイングトレーニングには2つの大きな問題がある: (I) 特定のシナリオに対する対話トレーニングを促すために事前に定義されたロールプロファイルを使用することで、対話とプロファイルの間に矛盾や矛盾が生じ、トレーニングバイアスが生じる。
我々はこれらのハードルを克服するために、DIALOGUEと呼ばれるシンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-20T14:47:38Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement [17.5855800570993]
大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。
既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。
本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
論文 参考訳(メタデータ) (2024-02-16T12:12:05Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks [34.86098237949214]
敵対的攻撃、特にパッチ攻撃は、ディープラーニングモデルの堅牢性と信頼性に重大な脅威をもたらす。
本稿では,テキスト誘導拡散モデルを用いてパッチ攻撃に対処する新しい防御フレームワークであるDIFFenderを紹介する。
DIFFenderは、パッチのローカライゼーションと復元の2つのタスクを単一の拡散モデルフレームワークに統合する。
論文 参考訳(メタデータ) (2023-06-15T13:33:27Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。