論文の概要: SafeConstellations: Steering LLM Safety to Reduce Over-Refusals Through Task-Specific Trajectory
- arxiv url: http://arxiv.org/abs/2508.11290v1
- Date: Fri, 15 Aug 2025 07:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.790513
- Title: SafeConstellations: Steering LLM Safety to Reduce Over-Refusals Through Task-Specific Trajectory
- Title(参考訳): SafeConstellations:タスク特化軌道によるオーバーリフレクション低減のためのLLM安全の取組
- Authors: Utsav Maskey, Sumit Yadav, Mark Dras, Usman Naseem,
- Abstract要約: 過剰な拒絶行動は、有害な内容に表面的に類似する良心的な指示をモデルが拒否する原因となる。
SafeConstellationsは、タスク固有の軌道パターンを追跡し、非拒否経路への表現を誘導する推論時軌道シフト手法である。
本手法は, 過断率を最大73%削減し, 過断率を緩和する基本手法であるユーティリティオフリングに最小限の影響を与える。
- 参考スコア(独自算出の注目度): 5.962636335604981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs increasingly exhibit over-refusal behavior, where safety mechanisms cause models to reject benign instructions that superficially resemble harmful content. This phenomena diminishes utility in production applications that repeatedly rely on common prompt templates or applications that frequently rely on LLMs for specific tasks (e.g. sentiment analysis, language translation). Through comprehensive evaluation, we demonstrate that LLMs still tend to refuse responses to harmful instructions when those instructions are reframed to appear as benign tasks. Our mechanistic analysis reveal that LLMs follow distinct "constellation" patterns in embedding space as representations traverse layers, with each task maintaining consistent trajectories that shift predictably between refusal and non-refusal cases. We introduce SafeConstellations, an inference-time trajectory-shifting approach that tracks task-specific trajectory patterns and guides representations toward non-refusal pathways. By selectively guiding model behavior only on tasks prone to over-refusal, and by preserving general model behavior, our method reduces over-refusal rates by up to 73% with minimal impact on utility-offering a principled approach to mitigating over-refusals.
- Abstract(参考訳): LLMは、安全メカニズムがモデルに有害な内容と表面的に類似する良心的な指示を拒絶させるという、過剰な拒絶行動を示す傾向が強まっている。
この現象は、特定のタスク(例えば、感情分析、言語翻訳)にLLMに頻繁に依存する一般的なプロンプトテンプレートやアプリケーションに繰り返し依存する本番アプリケーションの実用性を低下させる。
包括的評価により,LLMは有害な命令に対する応答を拒否する傾向にあり,それらの命令が良質なタスクとして再編成される。
我々の力学解析により, LLMは, 組込み空間の異なる「コンステレーション」パターンに従い, 各々のタスクは, 拒絶事例と非拒絶事例の間で予測可能な一貫した軌道を維持できることがわかった。
SafeConstellationsは、タスク固有の軌道パターンを追跡し、非拒否経路への表現を誘導する推論時軌道シフト手法である。
本手法は, オーバーリファレンスに起因するタスクのみにモデル動作を選択的に導くことによって, オーバーリファレンスを緩和するための基本的アプローチであるユーティリティオフに最小限の影響を伴って, オーバーリファレンス率を最大73%削減する。
関連論文リスト
- Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - LLMScan: Causal Scan for LLM Misbehavior Detection [12.411972858200594]
大規模言語モデル(LLM)は、非現実的でバイアスがあり、有害な応答を生成する。
この研究は、因果解析に基づく革新的なモニタリング技術であるLLMScanを導入している。
論文 参考訳(メタデータ) (2024-10-22T02:27:57Z) - "Yes, My LoRD." Guiding Language Model Extraction with Locality Reinforced Distillation [23.79690793366511]
大規模言語モデル(LLM)に特化して設計された新しいモデル抽出アルゴリズムであるLoRD(Locality Reinforced Distillation)を提案する。
LoRDは、被害者モデルの応答を信号として利用し、ローカルモデルの好みの作り方をガイドする、新たに定義されたポリシー段階的なトレーニングタスクを採用している。
論文 参考訳(メタデータ) (2024-09-04T13:54:38Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。