論文の概要: Semantics as a Shield: Label Disguise Defense (LDD) against Prompt Injection in LLM Sentiment Classification
- arxiv url: http://arxiv.org/abs/2511.21752v1
- Date: Sun, 23 Nov 2025 20:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.208168
- Title: Semantics as a Shield: Label Disguise Defense (LDD) against Prompt Injection in LLM Sentiment Classification
- Title(参考訳): シールドとしてのセマンティクス : LLM感度分類におけるプロンプト注入に対するラベル拡散防御(LDD)
- Authors: Yanxi Li, Ruocheng Shan,
- Abstract要約: 本稿では,ラベルを意味的に変換したエイリアスラベルに置き換えることで,真のラベルを隠蔽する軽量な戦略であるラベル・ディグライズ・ディフェンス(LDD)を紹介する。
GPT-5, GPT-4o, LLaMA3.2, Gemma3, Mistral など,9種類の最先端モデルを対象としたLCDの評価を行った。
- 参考スコア(独自算出の注目度): 5.963719408944521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly used for text classification tasks such as sentiment analysis, yet their reliance on natural language prompts exposes them to prompt injection attacks. In particular, class-directive injections exploit knowledge of the model's label set (e.g., positive vs. negative) to override its intended behavior through adversarial instructions. Existing defenses, such as detection-based filters, instruction hierarchies, and signed prompts, either require model retraining or remain vulnerable to obfuscation. This paper introduces Label Disguise Defense (LDD), a lightweight and model-agnostic strategy that conceals true labels by replacing them with semantically transformed or unrelated alias labels(e.g., blue vs. yellow). The model learns these new label mappings implicitly through few-shot demonstrations, preventing direct correspondence between injected directives and decision outputs. We evaluate LDD across nine state-of-the-art models, including GPT-5, GPT-4o, LLaMA3.2, Gemma3, and Mistral variants, under varying few-shot and an adversarial setting. Our results show that the ability of LDD to recover performance lost to the adversarial attack varies across models and alias choices. For every model evaluated, LDD is able to restore a portion of the accuracy degradation caused by the attack. Moreover, for the vast majority of models, we can identify more than one alias pair that achieves higher accuracy than the under-attack baseline, in which the model relies solely on few-shot learning without any defensive mechanism. A linguistic analysis further reveals that semantically aligned alias labels(e.g., good vs. bad) yield stronger robustness than unaligned symbols(e.g., blue vs. yellow). Overall, this study demonstrates that label semantics can serve as an effective defense layer, transforming meaning itself into a shield against prompt injection.
- Abstract(参考訳): 大きな言語モデルは、感情分析のようなテキスト分類タスクにますます使われているが、自然言語のプロンプトに依存しているため、インジェクション攻撃が促される。
特に、クラス指向インジェクションは、モデルのラベルセット(例えば、正対負)の知識を利用して、敵対的命令を通じて意図した振る舞いをオーバーライドする。
検出ベースのフィルタ、命令階層、署名されたプロンプトといった既存の防御は、モデルの再訓練を必要とするか、難読化に弱いままである。
本稿では,ラベルを意味的に変換あるいは無関係なエイリアスラベル(eg,Blue vs. yellow)に置き換えることで,真のラベルを隠蔽する軽量かつモデルに依存しない戦略であるラベル・ディグライズ・ディフェンス(LDD)を紹介する。
このモデルは、数ショットのデモを通じて、これらの新しいラベルマッピングを暗黙的に学習し、注入された指示書と決定出力との直接対応を防ぐ。
GPT-5, GPT-4o, LLaMA3.2, Gemma3, Mistral variantsを含む9つの最先端モデルにおけるLCDの評価を行った。
以上の結果から, LDDが敵攻撃で失った性能を回復する能力は, モデルやエイリアス選択によって異なることが明らかとなった。
評価されたすべてのモデルに対して、LDDは攻撃による精度劣化の一部を復元することができる。
さらに、ほとんどのモデルにおいて、攻撃下ベースラインよりも精度の高い複数のエイリアスペアを特定できる。
言語学的分析により、意味的に整列したエイリアスラベル(eg, good vs. bad)が、非整列記号(eg, blue vs. yellow)よりも強い強靭性をもたらすことが明らかになった。
本研究は,ラベルのセマンティクスが効果的な防衛層として機能し,意味自体が即発注射に対するシールドとなることを示す。
関連論文リスト
- Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。
我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。
我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。
現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2025-09-11T02:50:07Z) - LADSG: Label-Anonymized Distillation and Similar Gradient Substitution for Label Privacy in Vertical Federated Learning [15.24974575465626]
VFL(Vertical Federated Learning)のための統一的で軽量な防衛フレームワークであるLADSG(Lallel-Anonymized Defense with Substitution Gradient)を提案する。
LADSGはまず、ソフト蒸留により真のラベルを匿名化し、セマンティックな露出を減らす。
6つの実世界のデータセットに対する大規模な実験により、LADSGは3種類のラベル推論攻撃の成功率を30~60%削減し、計算オーバーヘッドを最小限に抑え、その実用性を示している。
論文 参考訳(メタデータ) (2025-06-07T10:10:56Z) - Humans Hallucinate Too: Language Models Identify and Correct Subjective Annotation Errors With Label-in-a-Haystack Prompts [41.162545164426085]
大規模言語モデル(LLM)を用いた文脈におけるラベル検証について検討する。
主観的ラベル補正のためのLiaHR(Label-in-a-Haystack Rectification)フレームワークを提案する。
このアプローチは、信号と雑音の比率を高めるために、アノテーションパイプラインに統合することができる。
論文 参考訳(メタデータ) (2025-05-22T18:55:22Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Triggerless Backdoor Attack for NLP Tasks with Clean Labels [31.308324978194637]
バックドア攻撃で有毒なデータを構築するための標準的な戦略は、選択した文にトリガーを挿入し、元のラベルをターゲットラベルに変更することである。
この戦略は、トリガーとラベルの両方の観点から容易に検出されるという深刻な欠陥を伴っている。
そこで本研究では,外部トリガーを必要としないテキストバックドア攻撃を行う新たな手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T18:36:25Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Generating Label Cohesive and Well-Formed Adversarial Claims [44.29895319592488]
敵攻撃は、訓練されたモデルの重大な脆弱性と欠陥を明らかにする。
本研究は,真理を保存した事実チェックシステムに対して,敵対的な攻撃を発生させる方法について検討する。
生成した攻撃は, クレームの方向性と意味的妥当性を, 従来よりも良好に維持していることがわかった。
論文 参考訳(メタデータ) (2020-09-17T10:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。