論文の概要: Universal Adversarial Suffixes Using Calibrated Gumbel-Softmax Relaxation
- arxiv url: http://arxiv.org/abs/2512.08123v1
- Date: Tue, 09 Dec 2025 00:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.760781
- Title: Universal Adversarial Suffixes Using Calibrated Gumbel-Softmax Relaxation
- Title(参考訳): Calibrated Gumbel-Softmax Relaxation を用いたユニバーサル逆接接尾辞
- Authors: Sampriti Soor, Suklav Ghosh, Arijit Sur,
- Abstract要約: 我々は,任意の入力に付加されたユニバーサル逆接接尾辞について検討し,タスクやモデル間での精度を広く低減する。
提案手法は,Gumbel-Softmax 緩和を用いた微分可能な「ソフト」形式で接尾辞を学習し,推論のために識別する。
あるモデルで訓練された1つの接尾辞は、他のモデルに効果的に転送され、常に精度と精度の調整の両方を低下させる。
- 参考スコア(独自算出の注目度): 9.099589602551573
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models (LMs) are often used as zero-shot or few-shot classifiers by scoring label words, but they remain fragile to adversarial prompts. Prior work typically optimizes task- or model-specific triggers, making results difficult to compare and limiting transferability. We study universal adversarial suffixes: short token sequences (4-10 tokens) that, when appended to any input, broadly reduce accuracy across tasks and models. Our approach learns the suffix in a differentiable "soft" form using Gumbel-Softmax relaxation and then discretizes it for inference. Training maximizes calibrated cross-entropy on the label region while masking gold tokens to prevent trivial leakage, with entropy regularization to avoid collapse. A single suffix trained on one model transfers effectively to others, consistently lowering both accuracy and calibrated confidence. Experiments on sentiment analysis, natural language inference, paraphrase detection, commonsense QA, and physical reasoning with Qwen2-1.5B, Phi-1.5, and TinyLlama-1.1B demonstrate consistent attack effectiveness and transfer across tasks and model families.
- Abstract(参考訳): 言語モデル(LM)は、ラベルワードをスコア付けすることで、ゼロショットまたは少数ショットの分類器として使われることが多いが、敵のプロンプトに対して脆弱なままである。
従来の作業は通常、タスク固有のトリガやモデル固有のトリガを最適化します。
入力に付加された短いトークンシーケンス(4-10トークン)は、タスクやモデル間で広範囲に精度を低下させる。
提案手法は,Gumbel-Softmax 緩和を用いた微分可能な「ソフト」形式で接尾辞を学習し,推論のために識別する。
トレーニングはラベル領域の校正されたクロスエントロピーを最大化し、金のトークンを隠蔽して簡単な漏れを防ぐ。
あるモデルで訓練された1つの接尾辞は、他のモデルに効果的に転送され、常に精度と精度の調整の両方を低下させる。
Qwen2-1.5B、Phi-1.5、TinyLlama-1.1Bによる感情分析、自然言語推論、パラフレーズ検出、コモンセンスQA、物理的推論の実験は、一貫した攻撃効果とタスクとモデルファミリー間の移動を示している。
関連論文リスト
- Universal Adversarial Suffixes for Language Models Using Reinforcement Learning with Calibrated Reward [9.099589602551573]
言語モデルは、予測を確実に変更できる短い敵接尾辞に対して脆弱である。
本稿では,サフィックスをポリシーとして扱い,適切な政策最適化を施した強化学習フレームワークを用いる。
その結果,RL訓練した接尾辞は,従来の類似ジャンルの逆転トリガよりも精度を低下させ,タスクやモデル間で効果的に伝達できることが示唆された。
論文 参考訳(メタデータ) (2025-12-09T00:18:06Z) - From Flows to Words: Can Zero-/Few-Shot LLMs Detect Network Intrusions? A Grammar-Constrained, Calibrated Evaluation on UNSW-NB15 [0.41998444721319217]
大規模言語モデル(LLM)は自然言語入力を推論できるが、微調整なしでの侵入検出におけるそれらの役割は未だ不明である。
本研究では、各ネットワークフローをコンパクトなテキストレコードに変換し、軽量でドメインにインスパイアされたフラグで拡張することで、プロンプトオンリーなアプローチを評価する。
ゼロショット,命令誘導,スプリットショットを比較して,同一のスプリット下での強い神経ベースライン,精度,精度,リコール,F1,マクロスコアを比較した。
論文 参考訳(メタデータ) (2025-10-18T02:11:50Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z) - Classifier-independent Lower-Bounds for Adversarial Robustness [13.247278149124757]
理論的には、テストタイムの逆数と雑音の分類例に対するロバスト性の限界を解析する。
最適輸送理論を用いて、与えられた分類問題に対して分類器ができるベイズ最適誤差の変分式を導出する。
一般的な距離ベース攻撃の場合,ベイズ最適誤差に対して明らかな下限を導出する。
論文 参考訳(メタデータ) (2020-06-17T16:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。