論文の概要: Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning
- arxiv url: http://arxiv.org/abs/2507.04250v1
- Date: Sun, 06 Jul 2025 05:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.08835
- Title: Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning
- Title(参考訳): 過度なシフト: ターゲット表現を微調整したアライメント言語モデルにおける過剰な拒絶の軽減
- Authors: Mahavir Dabas, Si Chen, Charles Fleming, Ming Jin, Ruoxi Jia,
- Abstract要約: ACTORは、さまざまなクエリから内部アクティベーションパターンを活用することで、過剰な拒絶を最小化する。
ACTORは、リファインをトリガーするアクティベーションコンポーネントを正確に識別し、調整し、リファイン機構のより強力な制御を提供する。
- 参考スコア(独自算出の注目度): 19.823784666021822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment is crucial for large language models (LLMs) to resist malicious instructions but often results in over-refusals, where benign prompts are unnecessarily rejected, impairing user experience and model utility. We introduce ACTOR (Activation-Based Training for Over-Refusal Reduction), a robust and compute- and data-efficient training framework that minimizes over-refusals by leveraging internal activation patterns from diverse queries. ACTOR precisely identifies and adjusts the activation components that trigger refusals, providing stronger control over the refusal mechanism. By fine-tuning only a single model layer, ACTOR effectively reduces over-refusals across multiple benchmarks while maintaining the model's ability to handle harmful queries and preserve overall utility.
- Abstract(参考訳): 大規模な言語モデル(LLM)では、悪意のある命令に抵抗する上で、安全性の調整が不可欠だが、しばしば過剰な拒絶が発生し、良心的なプロンプトが不要に拒否され、ユーザエクスペリエンスやモデルユーティリティが損なわれる。
本稿では,ACTOR(Activation-Based Training for Over-Refusal Reduction)について紹介する。
ACTORは、リファインをトリガーするアクティベーションコンポーネントを正確に識別し、調整し、リファイン機構のより強力な制御を提供する。
単一のモデル層のみを微調整することにより、ACTORは、有害なクエリを処理し、全体的なユーティリティを保持するモデルの能力を維持しながら、複数のベンチマークにわたる過剰な拒絶を効果的に削減する。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Feature-Selective Representation Misdirection for Machine Unlearning [34.167873590478074]
マシンアンラーニングは、デプロイされたモデルが進化する法律、安全、ガバナンス要件に準拠することを確実にするのに役立つ。
現在の未学習のテクニックは、データセットの忘れと保持のクリーンな分離を前提としている。
本稿では,アクティベーション編集フレームワークSRMU(Selective Representation Misdirection for Unlearning)を提案する。
論文 参考訳(メタデータ) (2025-12-18T08:31:50Z) - Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - RepIt: Steering Language Models with Concept-Specific Refusal Vectors [44.49401545656479]
RepItは概念固有の表現を分離するためのフレームワークである。
目的概念に対する拒絶を選択的に抑制し、他所での拒絶を抑える。
WMD関連の問題に答えるモデルを生成するが、標準ベンチマークでは安全と評価されている。
論文 参考訳(メタデータ) (2025-09-16T17:35:36Z) - UnGuide: Learning to Forget with LoRA-Guided Diffusion Models [6.860380947025009]
大規模テキスト・画像拡散モデルの最近の進歩は、その誤用に対する懸念を高めている。
これは、効果的な機械学習、すなわち事前訓練されたモデルから特定の知識や概念を取り除く必要性を浮き彫りにする。
本研究では,Un-Free Guidance(CFG)を取り入れたUnGuideを提案する。
論文 参考訳(メタデータ) (2025-08-07T18:12:03Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - A Novel Generative Model with Causality Constraint for Mitigating Biases in Recommender Systems [20.672668625179526]
遅延共起バイアスは、ユーザのフィードバックとアイテムの露出の間の真の因果関係を曖昧にする可能性がある。
本稿では,Recommender Systemsにおける表現学習のための遅延因果制約(Latent Causality Constraints)と呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:09:39Z) - CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。
我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。
この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文 参考訳(メタデータ) (2025-05-22T11:47:08Z) - Patterns and Mechanisms of Contrastive Activation Engineering [0.374490703387131]
CAEは、フレキシブルでタスク固有の振る舞いチューニングの新しいパラダイムを導入する可能性がある。
本研究では,配当・配当・配当設定におけるCAEの性能を分析し,欠点を評価し,その効果的な展開のための包括的ガイドラインの開発に着手する。
論文 参考訳(メタデータ) (2025-05-06T05:15:12Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z) - PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery [11.20326903218271]
インストラクションチューニングなどのポストトレーニング技術は、一般的にモデル性能の回復に使用される。
しかし、いくつかの無関係な命令は、モデルのキャパシティ回復に悪影響を及ぼす可能性がある。
textbfPost-training dtextbfAta textbfSelection method for textbfEfficient pruned large language model textbfRecovery (textbfPASER)を提案する。
論文 参考訳(メタデータ) (2025-02-18T07:11:08Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders [56.47577824219207]
本稿では,侵入的微調整技術に関連する隠れたコストを明らかにする。
ファインチューニングのための新しいモデル再プログラミング手法を導入し、それをリプログラマと呼ぶ。
我々の経験的証拠は、Re Programmerは侵入力が少なく、より優れた下流モデルが得られることを示している。
論文 参考訳(メタデータ) (2024-03-16T04:19:48Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。