論文の概要: Beyond "I cannot fulfill this request": Alleviating Rigid Rejection in LLMs via Label Enhancement
- arxiv url: http://arxiv.org/abs/2605.07883v1
- Date: Fri, 08 May 2026 15:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.162042
- Title: Beyond "I cannot fulfill this request": Alleviating Rigid Rejection in LLMs via Label Enhancement
- Title(参考訳): I cannot fulfill this request: Alleviating Rigid Rejection in LLMs via Label Enhancement
- Authors: Ying Zhang, Congyu Qiao, Xin Geng, Ning Xu,
- Abstract要約: 大きな言語モデル(LLM)は、有害なものを拒絶しながら安全な要求に従うために安全アライメントに依存している。
本稿では,ラベル拡張による安全かつフレキシブルで自然な応答を保証するためにLANCEを提案する。
実験により、LANCEは高いセキュリティ基準を維持しながら、厳格な拒絶問題を著しく軽減することが示された。
- 参考スコア(独自算出の注目度): 39.705063586885075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) rely on safety alignment to obey safe requests while refusing harmful ones. However, traditional refusal mechanisms often lead to "rigid rejection," where a general template (e.g., "I cannot fulfill this request") indiscriminately triggers refusals and severely undermines the naturalness of interactions between humans and LLMs. To address this issue, LANCE is proposed in this paper to ensure safe yet flexible and natural responses via label enhancement. Specifically, LANCE employs variational inference to perform label enhancement, predicting a continuous distribution across multiple rejection categories. These fine-grained rejection distributions provide multi-way textual gradients for a refinement model to neutralize the hazardous elements in the prompt, so that the LLMs could generate safe responses that avoid rigid rejections while preserving the naturalness of interactions. Experiments demonstrate that LANCE significantly alleviates the rigid rejection problem while maintaining high security standards, significantly outperforming existing baseline models in terms of helpfulness and naturalness of responses.
- Abstract(参考訳): 大きな言語モデル(LLM)は、有害なものを拒絶しながら安全な要求に従うために安全アライメントに依存している。
しかし、従来の拒絶機構は「厳格な拒絶」につながることが多く、一般的なテンプレート(例えば「私はこの要求を満足できない」)が無差別に拒絶を誘発し、人間とLDM間の相互作用の自然性を著しく損なう。
この問題に対処するために,ラベル拡張による安全かつフレキシブルで自然な応答を確保するため,LANCEを提案する。
特に、LANCEはラベル拡張を行うために変分推論を採用し、複数の拒絶カテゴリにまたがる連続的な分布を予測する。
これらの微細な拒絶分布は、プロンプト中の有害な要素を中和するために精製モデルのための多方向テキスト勾配を与えるため、LLMは、相互作用の自然性を維持しながら、厳格な拒絶を避ける安全な応答を生成することができる。
実験により、LANCEは高いセキュリティ基準を維持しながら厳格な拒絶問題を著しく軽減し、既存のベースラインモデルよりも応答の有用性や自然性において著しく優れていることが示された。
関連論文リスト
- When Choices Become Risks: Safety Failures of Large Language Models under Multiple-Choice Constraints [15.533348064153827]
大規模言語モデル(LLM)における安全性のアライメントは、主にオープン・エンド・ジェネレーションの下で評価される。
強制選択の制約が政策違反の反応を急激に増加させることを示す。
その結果,現在の安全評価は構造化タスク設定のリスクを著しく過小評価していることがわかった。
論文 参考訳(メタデータ) (2026-04-18T08:49:11Z) - Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment [14.672527265339722]
安全性アライメントは、大規模な言語モデル(LLM)が、拒絶された回答と組み合わせた有害なクエリのトレーニング後、有害な要求を拒否することを保証することを目的としている。
本稿では,安全アライメント下での過度な拒絶がどのように起こるのかを考察し,本研究から着想を得た緩和戦略を提案する。
論文 参考訳(メタデータ) (2026-03-12T00:07:19Z) - Learning to Extract Context for Context-Aware LLM Inference [60.376872353918394]
大型言語モデル(LLM)へのユーザープロンプトは曖昧か不明確であることが多い。
ユーザの意図、事前知識、リスク要因によって形成されるコンテキスト的手がかりは、適切な応答を構成するものに影響を与える。
本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T19:10:08Z) - Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [41.32331563680919]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。