論文の概要: Towards Understanding and Improving Refusal in Compressed Models via Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2504.04215v1
- Date: Sat, 05 Apr 2025 16:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:05.882484
- Title: Towards Understanding and Improving Refusal in Compressed Models via Mechanistic Interpretability
- Title(参考訳): 機械的解釈可能性による圧縮モデルの拒絶の理解と改善に向けて
- Authors: Vishnu Kabir Chhabra, Mohammad Mahdi Khalili,
- Abstract要約: 本稿では, 圧縮モデルの安全性について, 拒絶機構を検証して検討する。
本稿では,圧縮モデルの性能や実用性を損なうことなく,軽量で計算効率の良い圧縮モデルの安全性を高める手法を提案する。
- 参考スコア(独自算出の注目度): 7.73472615056109
- License:
- Abstract: The rapid growth of large language models has spurred significant interest in model compression as a means to enhance their accessibility and practicality. While extensive research has explored model compression through the lens of safety, findings suggest that safety-aligned models often lose elements of trustworthiness post-compression. Simultaneously, the field of mechanistic interpretability has gained traction, with notable discoveries, such as the identification of a single direction in the residual stream mediating refusal behaviors across diverse model architectures. In this work, we investigate the safety of compressed models by examining the mechanisms of refusal, adopting a novel interpretability-driven perspective to evaluate model safety. Furthermore, leveraging insights from our interpretability analysis, we propose a lightweight, computationally efficient method to enhance the safety of compressed models without compromising their performance or utility.
- Abstract(参考訳): 大規模言語モデルの急速な成長は、アクセシビリティと実用性を高める手段として、モデル圧縮への大きな関心を喚起している。
安全のレンズを通してモデル圧縮について広範な研究が行われてきたが、安全に適合したモデルが圧縮後の信頼性の要素を失うことがしばしば示唆されている。
同時に、メカニスティックな解釈可能性の分野は、様々なモデルアーキテクチャにまたがる拒絶動作を媒介する残留ストリームにおける単一方向の識別など、顕著な発見とともに、注目を集めている。
本研究では, モデル安全性を評価するために, 新たな解釈可能性に基づく視点を取り入れ, 拒絶のメカニズムを検証し, 圧縮モデルの安全性について検討する。
さらに,解釈可能性分析から得られた知見を利用して,圧縮モデルの性能や有用性を損なうことなく安全性を向上させる軽量で計算効率の良い手法を提案する。
関連論文リスト
- From Counterfactuals to Trees: Competitive Analysis of Model Extraction Attacks [4.293083690039339]
モデル再構成のリスクと本質的な複雑さを形式化し特徴付ける。
本稿では,競合解析のレンズによるモデル抽出攻撃の最初の公式解析について述べる。
我々は、常に強い性能を示しながら、証明可能な完全性を達成する新しい再構成アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-02-07T20:51:06Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Towards Precise Observations of Neural Model Robustness in Classification [2.127049691404299]
ディープラーニングアプリケーションでは、ロバストネスは入力データのわずかな変化を処理するニューラルネットワークの能力を測定する。
私たちのアプローチは、安全クリティカルなアプリケーションにおけるモデルロバストネスのより深い理解に寄与します。
論文 参考訳(メタデータ) (2024-04-25T09:37:44Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models [19.132597762214722]
大規模な言語モデル(LLM)が重要な研究領域として現れている。
本稿では,モデル編集による修正の複雑な結果について検討する。
この結果から, モデル編集は, トピック・リピートのためのコスト効率のよいツールであることが示唆された。
論文 参考訳(メタデータ) (2024-01-19T11:48:09Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Understanding Data Augmentation from a Robustness Perspective [10.063624819905508]
データ拡張は、モデルの堅牢性を増幅するための重要なテクニックとして際立っている。
この写本は、この現象を理解するための理論的および実証的なアプローチを採っている。
我々の経験的評価は、エンブレマ的なデータ拡張戦略の複雑なメカニズムを解明するものである。
これらの洞察は、視覚認識タスクにおけるモデルの安全性と堅牢性を再評価する新しいレンズを提供する。
論文 参考訳(メタデータ) (2023-09-07T10:54:56Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Enhancing Model Robustness and Fairness with Causality: A Regularization
Approach [15.981724441808147]
最近の研究は、機械学習モデルにおける急激な相関と意図しないバイアスのリスクを懸念している。
モデルトレーニング中に因果知識を統合するためのシンプルで直感的な正規化手法を提案する。
因果的特徴に依存し、因果的でない特徴に依存しない予測モデルを構築します。
論文 参考訳(メタデータ) (2021-10-03T02:49:33Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。