論文の概要: Universal Adversarial Suffixes for Language Models Using Reinforcement Learning with Calibrated Reward
- arxiv url: http://arxiv.org/abs/2512.08131v1
- Date: Tue, 09 Dec 2025 00:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.765673
- Title: Universal Adversarial Suffixes for Language Models Using Reinforcement Learning with Calibrated Reward
- Title(参考訳): キャリブレーション・リワードを用いた強化学習を用いた言語モデルに対するユニバーサル・アディショナル・サフィックス
- Authors: Sampriti Soor, Suklav Ghosh, Arijit Sur,
- Abstract要約: 言語モデルは、予測を確実に変更できる短い敵接尾辞に対して脆弱である。
本稿では,サフィックスをポリシーとして扱い,適切な政策最適化を施した強化学習フレームワークを用いる。
その結果,RL訓練した接尾辞は,従来の類似ジャンルの逆転トリガよりも精度を低下させ,タスクやモデル間で効果的に伝達できることが示唆された。
- 参考スコア(独自算出の注目度): 9.099589602551573
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models are vulnerable to short adversarial suffixes that can reliably alter predictions. Previous works usually find such suffixes with gradient search or rule-based methods, but these are brittle and often tied to a single task or model. In this paper, a reinforcement learning framework is used where the suffix is treated as a policy and trained with Proximal Policy Optimization against a frozen model as a reward oracle. Rewards are shaped using calibrated cross-entropy, removing label bias and aggregating across surface forms to improve transferability. The proposed method is evaluated on five diverse NLP benchmark datasets, covering sentiment, natural language inference, paraphrase, and commonsense reasoning, using three distinct language models: Qwen2-1.5B Instruct, TinyLlama-1.1B Chat, and Phi-1.5. Results show that RL-trained suffixes consistently degrade accuracy and transfer more effectively across tasks and models than previous adversarial triggers of similar genres.
- Abstract(参考訳): 言語モデルは、予測を確実に変更できる短い敵接尾辞に対して脆弱である。
以前の研究は通常、勾配探索やルールベースの手法でそのような接尾辞を見つけるが、それらは脆く、単一のタスクやモデルに結びついていることが多い。
本稿では,サフィックスをポリシーとして扱い,凍結モデルに対する近似的政策最適化(PRO)を報酬託として訓練する強化学習フレームワークを用いる。
逆流は、キャリブレーションされたクロスエントロピーを用いて形成され、ラベルバイアスを除去し、表面形状をまたいで凝集し、転写性を向上させる。
提案手法は,3つの異なる言語モデルであるQwen2-1.5B Instruct, TinyLlama-1.1B Chat, Phi-1.5を用いて,感情, 自然言語推論, 言い換え, 常識推論を含む5種類のNLPベンチマークデータセットを用いて評価した。
その結果,RL訓練した接尾辞は,従来の類似ジャンルの逆転トリガよりも精度を低下させ,タスクやモデル間で効果的に伝達できることが示唆された。
関連論文リスト
- Universal Adversarial Suffixes Using Calibrated Gumbel-Softmax Relaxation [9.099589602551573]
我々は,任意の入力に付加されたユニバーサル逆接接尾辞について検討し,タスクやモデル間での精度を広く低減する。
提案手法は,Gumbel-Softmax 緩和を用いた微分可能な「ソフト」形式で接尾辞を学習し,推論のために識別する。
あるモデルで訓練された1つの接尾辞は、他のモデルに効果的に転送され、常に精度と精度の調整の両方を低下させる。
論文 参考訳(メタデータ) (2025-12-09T00:03:39Z) - DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Adversarial Training for Improving Model Robustness? Look at Both
Prediction and Interpretation [21.594361495948316]
本稿では,FLAT という新しい特徴レベルの対角訓練手法を提案する。
FLATは、グローバルな単語の重要性を学ぶために、変分ワードマスクをニューラルネットワークに組み込んでいる。
FLATが予測と解釈の両方において頑健性を向上させる効果を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-23T20:04:14Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - $k$-Neighbor Based Curriculum Sampling for Sequence Prediction [22.631763991832862]
言語モデルにおける多段階予測は、トレーニングとテスト時間プロセスの相違により困難である。
教師方針を段階的に変更するカリキュラム学習に基づく手法であるtextitNearest-Neighbor Replacement Samplingを提案する。
本研究では, 2つの言語モデリングベンチマークについて報告し, スケジュールされたサンプリングと併用することで, 性能をさらに向上させる方法を提案する。
論文 参考訳(メタデータ) (2021-01-22T20:07:29Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。