論文の概要: Please refuse to answer me! Mitigating Over-Refusal in Large Language Models via Adaptive Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2604.17132v1
- Date: Sat, 18 Apr 2026 20:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.349251
- Title: Please refuse to answer me! Mitigating Over-Refusal in Large Language Models via Adaptive Contrastive Decoding
- Title(参考訳): 答えを断ってください!Adaptive Contrastive Decodingによる大規模言語モデルの過剰な拒絶の軽減
- Authors: Yupeng Qi, Ziyu Lyu, Lixin Cui, Lu Bai, Feng Xia,
- Abstract要約: 安全性に整合した大言語モデル(LLM)は、過度に拒否される問題のために、無害なクエリに対する拒否応答を生成することが多い。
オーバーリファインを緩和する既存の方法は、悪意のあるクエリに対して高いリファイン比を維持しながら、無害なクエリに対して低リファイン比を維持することはできない。
我々は,LLMの安全性を維持しつつ,過度な拒絶を軽減し,トレーニング不要でモデルに依存しないアプローチであるAdaptive Contrastive Decoding (AdaCD)を提案する。
- 参考スコア(独自算出の注目度): 14.12354553465928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-aligned large language models (LLMs) often generate refusal responses to harmless queries due to the over-refusal problem. However, existing methods for mitigating over-refusal cannot maintain a low refusal ratio for harmless queries while keeping a high refusal ratio for malicious ones. In this paper, we analyze how system prompts with varying safety levels affect LLM refusal behaviors when facing over-refusal queries. A key observation is that, when LLMs suffer from the over-refusal issue, non-refusal tokens remain present in the next-token candidate list, but the model systematically fails to select them, despite the generation of refusal tokens. Based on this observation, we propose a training-free and model-agnostic approach, Adaptive Contrastive Decoding (AdaCD), to mitigate over-refusal while maintaining LLM safety. First, AdaCD compares the output distributions of the LLM with or without an extreme safety system prompt to refine the refusal token distribution. Second, we introduce an adaptive contrastive decoding strategy that dynamically incorporates or removes the refusal token distribution, adaptively boosting the probability of selecting refusal or non-refusal tokens. Experimental results on five benchmark datasets show that, on average, AdaCD reduces the refusal ratio for over-refusal queries by 10.35%, yet still increases the refusal ratio for malicious queries by 0.13%. Code is available at https://github.com/OutdoorManofML/AdaCD.
- Abstract(参考訳): 安全性に整合した大言語モデル(LLM)は、過度に拒否される問題のために、無害なクエリに対する拒否応答をしばしば生成する。
しかし、既存手法では、悪意のあるクエリに対して高い拒絶率を維持しつつも、無害なクエリに対して低拒否率を維持することはできない。
本稿では,安全性の異なるシステムプロンプトが,過度なクエリに直面した場合のLCMの拒絶動作に与える影響を解析する。
重要な観察は、LLMが過剰な拒絶問題に苦しむとき、非拒否トークンは次のToken候補リストに残るが、そのモデルは拒否トークンの生成にもかかわらず体系的にそれらを選択することができないことである。
本研究は,LLMの安全性を維持しつつ,過度な拒絶を軽減するために,学習自由でモデルに依存しないAdaCD(Adaptive Contrastive Decoding)を提案する。
第一に、AdaCDはLLMの出力分布と極度の安全システムの有無を比較して、拒否トークン分布を洗練させる。
第二に、リフレクショントークンの分布を動的に組み込んだり、取り除いたりして、リフレクショントークンや非リフレクショントークンを選択する確率を適応的に向上させる適応型コントラストデコーディング戦略を導入する。
5つのベンチマークデータセットの実験結果によると、平均してAdaCDはオーバーリファリングクエリの拒絶率を10.35%削減するが、悪意のあるクエリの拒絶率を0.13%向上させる。
コードはhttps://github.com/OutdoorManofML/AdaCDで入手できる。
関連論文リスト
- Adaptive Conformal Prediction for Improving Factuality of Generations by Large Language Models [86.8650252164764]
大規模言語モデル(LLM)は、事実的に誤った出力を生成する傾向にある。
本研究では,LLMへのコンフォメーションスコア変換法を拡張する適応型コンフォメーション予測手法を提案する。
これにより、アクシデントに依存したキャリブレーションが可能となり、条件付きカバレッジを改善しながら、限界範囲のカバレッジ保証が維持される。
論文 参考訳(メタデータ) (2026-04-15T15:35:42Z) - Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models [52.61023005303122]
低信頼度再マッシングは、誘導配列分布のエントロピーを制約しながら、品質のプロキシを改善することを示す。
我々は,デコード時に,この分布をほぼ対象とする簡易なインディペンデント・ハスティングス・サンプリング器を開発した。
論文 参考訳(メタデータ) (2026-04-01T02:01:30Z) - From Refusal Tokens to Refusal Control: Discovering and Steering Category-Specific Refusal Directions [7.599054770990825]
我々はLlama 3 8Bの分類的拒絶トークンを微調整したバージョンを活用し、微細な拒絶動作に対する推論時間制御を可能にする。
提案手法は,推論中の拒絶の方向か方向かを決定する軽量プローブを用いて分類的ステアリングベクターを構築した。
ベンチマーク全体において、カテゴリー的ステアリングベクトルとローランクの組み合わせは、良性プロンプトに対する過剰な拒絶を一貫して減少させ、有害なプロンプトに対する拒絶率を増大させる。
論文 参考訳(メタデータ) (2026-03-09T06:37:16Z) - LLMs Can Unlearn Refusal with Only 1,000 Benign Samples [23.047329180544775]
この研究は、大規模言語モデルの安全性アライメントにおいて、未解明の脆弱性を明らかにした。
既存のLLMは、多くの場合、固定されたプレフィックスセットから始まる、拒否を伴う安全でないクエリに応答する。
そこで本研究では,この手法を利用した新しいテキスト読解アンラーニング手法を提案する。
論文 参考訳(メタデータ) (2026-01-27T05:59:56Z) - Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs [16.357595595062946]
植民地の後に空間をトークン化する方法には合意がないが、しばしば自明な選択として見過ごされる。
驚いたことに、私たちは1つの特定の戦略 -- 回答のレターとともにスペースをトークン化する -- を推奨できます。
本研究は、注意深い評価設計の重要性を強調し、標準化された透明な評価プロトコルの必要性を強調した。
論文 参考訳(メタデータ) (2025-09-18T14:47:58Z) - Negation-Aware Test-Time Adaptation for Vision-Language Models [26.043679706381646]
視覚言語モデル(VLM)における実用的だが触覚の少ない問題について検討する。
多くの現実世界のアプリケーションは、偽物や存在しないものを明確に識別するためにモデルを必要とする。
本研究では,推論中の分布関連パラメータを効率的に調整するNegation-Aware Test-Time Adaptation (NEAT)法を提案する。
論文 参考訳(メタデータ) (2025-07-25T08:25:48Z) - An Embarrassingly Simple Defense Against LLM Abliteration Attacks [47.347413305965006]
失語症と呼ばれる最近の攻撃は、拒否行動に最も責任がある唯一の潜伏方向を特定し、抑制する。
本稿では、モデルが拒否を表現する方法を根本的に変える防衛法を提案する。
微調整のLlama-2-7B-ChatとQwen2.5-Instructは、消音下で高い断熱率を維持するモデルを生成する。
論文 参考訳(メタデータ) (2025-05-25T09:18:24Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。