論文の概要: Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement
- arxiv url: http://arxiv.org/abs/2603.03323v1
- Date: Tue, 10 Feb 2026 05:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.151391
- Title: Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement
- Title(参考訳): 虚偽の真理:コントラストリファインメントによる過剰な拒絶を減らす
- Authors: Yuxiao Lu, Lin Xu, Yang Sun, Wenjun Li, Jie Shi,
- Abstract要約: 大規模な言語モデル (LLM) は、しばしば過剰な拒絶に悩まされる。
この振る舞いはモデルの有用性を損なうものであり、センシティブまたはニュアンスドコンテキストにおけるユーザビリティを制限する。
我々は、この問題は、モデルの学習力学に有毒で一見有毒なプロンプトのあいまいな影響から生じると論じる。
- 参考スコア(独自算出の注目度): 14.1763272695827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) aligned for safety often suffer from over-refusal, the tendency to reject seemingly toxic or benign prompts by misclassifying them as toxic. This behavior undermines models' helpfulness and restricts usability in sensitive or nuanced contexts. While prior work has proposed mitigation strategies such as data augmentation and activation steering, these approaches often face a trade-off: reducing over-refusal typically degrades the model's ability to reject genuinely harmful content. We argue that this issue arises from the ambiguous influence of toxic and seemingly toxic prompts on the model's learning dynamics. To address it, we introduce a preceding alignment stage, DCR: Discernment via Contrastive Refinement. Both theoretically and empirically, we demonstrate that contrastive refinement improves an LLM's capacity to distinguish truly toxic prompts from superficially toxic ones. Evaluation across diverse benchmarks shows that our method effectively reduces over-refusal while preserving the safety benefits of alignment. Importantly, it achieves this with minimal degradation of general capabilities, offering a more principled and robust direction for safety alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば過剰な拒絶に悩まされ、毒性または良性的なプロンプトを誤分類することで拒絶する傾向にある。
この振る舞いはモデルの有用性を損なうものであり、センシティブまたはニュアンスドコンテキストにおけるユーザビリティを制限する。
事前の研究では、データ強化やアクティベーションステアリングといった緩和戦略が提案されていたが、これらのアプローチはしばしばトレードオフに直面している。
我々は、この問題は、モデルの学習力学に有毒で一見有毒なプロンプトのあいまいな影響から生じると論じる。
そこで本稿では,DCR: Contrastive Refinement による識別について述べる。
理論的にも経験的にも、対照的な改善はLLMの能力を改善し、真に有毒なプロンプトと表面毒性なプロンプトを区別することを示した。
各種ベンチマークによる評価は,アライメントの安全性を保ちながら,オーバーリフレクションを効果的に低減できることを示唆している。
重要なことに、これは一般的な能力の最小限の劣化で達成され、安全アライメントのためのより原則的で堅牢な方向を提供する。
関連論文リスト
- Detoxifying LLMs via Representation Erasure-Based Preference Optimization [44.29978832356216]
Webスケールデータに基づいてトレーニングされた大規模言語モデル(LLM)は、有害な出力を生成することができる。
DPO、NPO、および同様のアルゴリズムを応用した先行防御は、有害な継続の可能性を減らす。
本稿では,Representation Erasure-based Preference Optimization (REPO)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:51:06Z) - Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention [6.808534332444413]
大きな言語モデル(LLM)は強力なテキストジェネレータである。
LLMは、一見無害なプロンプトが与えられたとしても、有害または有害な内容物を生成することができる。
これは深刻な安全性の課題であり、現実世界に害を与える可能性がある。
論文 参考訳(メタデータ) (2026-02-06T11:33:17Z) - The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts [55.70338710797578]
関連コンテンツと不適切なコンテンツを含む実世界のコンテキストとクエリをペアリングするPoisoned Context Testbedを紹介した。
動物における連想学習に触発されて、神経科学からRescorla-Wagner(RW)モデルを適用し、競合する文脈信号がLLM出力にどのように影響するかを定量化する。
RW-ステアリング(RW-Steering)は、2段階の微調整に基づくアプローチであり、モデルが不適切な信号を内部的に識別し無視することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T00:40:34Z) - Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders [9.203871622144863]
大規模言語モデル(LLM)は現在、ユーザ向けアプリケーションではユビキタスだが、望ましくない有害な出力を生成する。
我々はスパースオートエンコーダ(SAE)を利用してモデル残差ストリームの毒性関連方向を特定し、ターゲットのアクティベーションステアリングを行う。
論文 参考訳(メタデータ) (2025-05-20T15:55:31Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。