論文の概要: Separator Injection Attack: Uncovering Dialogue Biases in Large Language Models Caused by Role Separators
- arxiv url: http://arxiv.org/abs/2504.05689v1
- Date: Tue, 08 Apr 2025 05:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 00:12:24.274616
- Title: Separator Injection Attack: Uncovering Dialogue Biases in Large Language Models Caused by Role Separators
- Title(参考訳): セパレータインジェクション攻撃:ロールセパレータによる大言語モデルにおける対話バイアスの発見
- Authors: Xitao Li, Haijun Wang, Jiang Wu, Ting Liu,
- Abstract要約: 役割セパレータは、会話で異なる参加者を区別するために使用される。
ロールの誤用はインジェクション攻撃を引き起こす可能性があるため、モデルの振る舞いをユーザの意図と簡単に間違える可能性がある。
我々は,ロールセパレータに基づく新しい正弦波攻撃であるセパレータインジェクションアタック(SIA)を開発した。
- 参考スコア(独自算出の注目度): 18.00739443633401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational large language models (LLMs) have gained widespread attention due to their instruction-following capabilities. To ensure conversational LLMs follow instructions, role separators are employed to distinguish between different participants in a conversation. However, incorporating role separators introduces potential vulnerabilities. Misusing roles can lead to prompt injection attacks, which can easily misalign the model's behavior with the user's intentions, raising significant security concerns. Although various prompt injection attacks have been proposed, recent research has largely overlooked the impact of role separators on safety. This highlights the critical need to thoroughly understand the systemic weaknesses in dialogue systems caused by role separators. This paper identifies modeling weaknesses caused by role separators. Specifically, we observe a strong positional bias associated with role separators, which is inherent in the format of dialogue modeling and can be triggered by the insertion of role separators. We further develop the Separators Injection Attack (SIA), a new orthometric attack based on role separators. The experiment results show that SIA is efficient and extensive in manipulating model behavior with an average gain of 18.2% for manual methods and enhances the attack success rate to 100% with automatic methods.
- Abstract(参考訳): 対話型大規模言語モデル (LLM) は命令追従能力によって広く注目を集めている。
会話のLLMが指示に従うことを保証するために、会話の異なる参加者を区別するためにロールセパレータが使用される。
しかし、ロールセパレータを組み込むことで潜在的な脆弱性がもたらされる。
ロールの誤用はインジェクション攻撃を引き起こす可能性があるため、モデルの振る舞いをユーザの意図と誤認し、重大なセキュリティ上の懸念を生じさせる可能性がある。
様々な即発注射攻撃が提案されているが、近年の研究では、ロールセパレータの安全性への影響を概ね見落としている。
このことは、ロールセパレータによって引き起こされる対話システムにおけるシステム的弱点を徹底的に理解する重要な必要性を強調している。
本稿では,ロールセパレータによるモデリングの弱点を特定する。
具体的には,ロールセパレータに係わる強い位置バイアスを観察する。これは対話の形式に固有のものであり,ロールセパレータの挿入によって引き起こされる。
我々はさらに、ロールセパレータに基づく新しい正弦波攻撃であるセパレータインジェクションアタック(SIA)を開発した。
実験の結果,SIAは手作業で平均18.2%の利得でモデル動作を効果的かつ広範囲に操作でき,自動手法で攻撃成功率を100%に向上することがわかった。
関連論文リスト
- The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them) [15.48684126686974]
微調整された大言語モデルは、しばしば役割識別のために2つのプロキシに依存することを示す。
モデル入力エンコーディングにおけるトークンワイドキューを調整し,役割境界をマークするエンフィン変分信号の強化を提案する。
論文 参考訳(メタデータ) (2025-05-01T16:06:16Z) - Towards Robust Dialogue Breakdown Detection: Addressing Disruptors in Large Language Models with Self-Guided Reasoning [30.13634341221476]
大規模言語モデル(LLM)は、様々なドメインを急速に変更している。
本稿では,LLM駆動システムにおける対話分解の検出と緩和の課題について論じる。
本稿では,特殊微調整と高度なプロンプト戦略を組み合わせたアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots [6.302734977940601]
本稿では,ユーザとアシスタント間の役割混乱を利用した対人攻撃のクラスであるロール・モダリティ・アタック(RMA)を紹介する。
RMAはクエリ自体を変更することなく入力構造を操作する。
本稿では,入力の急激な摂動に対してモデルを頑健にするための逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T03:54:36Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - ASIDE: Architectural Separation of Instructions and Data in Language Models [87.16417239344285]
本稿では,埋め込みレベルにおける命令とデータを明確に分離する手法ASIDEを提案する。
ASIDEはデータトークンの埋め込みに固定回転を適用し、追加のパラメータを導入することなく、命令とデータトークンの異なる表現を生成する。
提案手法の有効性を,(1)モデル能力の低下を伴わない命令データ分離スコアの高度化と,(2)専用の安全訓練を伴わずともインジェクションベンチマークにおける競合結果を示す。
論文 参考訳(メタデータ) (2025-03-13T17:17:17Z) - A Cooperative Multi-Agent Framework for Zero-Shot Named Entity Recognition [71.61103962200666]
ゼロショット名付きエンティティ認識(NER)は、注釈のないテキストコーパスからエンティティ認識システムを開発することを目的としている。
最近の研究は、特別なプロンプトテンプレートを作成することで、ゼロショットNERに大規模な言語モデル(LLM)を適用している。
ゼロショットNERのための新しいフレームワークである協調型マルチエージェントシステム(CMAS)を紹介する。
論文 参考訳(メタデータ) (2025-02-25T23:30:43Z) - Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。
提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。
このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文 参考訳(メタデータ) (2024-10-18T03:26:06Z) - Role-Play Paradox in Large Language Models: Reasoning Performance Gains and Ethical Dilemmas [7.677029165197536]
大型言語モデル(LLM)におけるロールプレイは、文脈的に関連性があり高品質な応答を生成する能力を高める。
本稿では,モデルの役割を自動選択する手法であるオートチューニングが,有害なアウトプットの生成につながることを実証する。
論文 参考訳(メタデータ) (2024-09-21T02:09:13Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。