論文の概要: Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs
- arxiv url: http://arxiv.org/abs/2508.00161v1
- Date: Thu, 31 Jul 2025 21:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.671688
- Title: Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs
- Title(参考訳): 重さを見る:微調整LDMの監視と制御
- Authors: Ziqian Zhong, Aditi Raghunathan,
- Abstract要約: 細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
- 参考スコア(独自算出の注目度): 14.779177849006963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The releases of powerful open-weight large language models (LLMs) are often not accompanied by access to their full training data. Existing interpretability methods, particularly those based on activations, often require or assume distributionally similar data. This is a significant limitation when detecting and defending against novel potential threats like backdoors, which are by definition out-of-distribution. In this work, we introduce a new method for understanding, monitoring and controlling fine-tuned LLMs that interprets weights, rather than activations, thereby side stepping the need for data that is distributionally similar to the unknown training data. We demonstrate that the top singular vectors of the weight difference between a fine-tuned model and its base model correspond to newly acquired behaviors. By monitoring the cosine similarity of activations along these directions, we can detect salient behaviors introduced during fine-tuning with high precision. For backdoored models that bypasses safety mechanisms when a secret trigger is present, our method stops up to 100% of attacks with a false positive rate below 1.2%. For models that have undergone unlearning, we detect inference on erased topics with accuracy up to 95.42% and can even steer the model to recover "unlearned" information. Besides monitoring, our method also shows potential for pre-deployment model auditing: by analyzing commercial instruction-tuned models (OLMo, Llama, Qwen), we are able to uncover model-specific fine-tuning focus including marketing strategies and Midjourney prompt generation. Our implementation can be found at https://github.com/fjzzq2002/WeightWatch.
- Abstract(参考訳): 強力なオープンウェイトな大規模言語モデル(LLM)のリリースは、フルトレーニングデータへのアクセスを伴わないことが多い。
既存の解釈可能性法、特にアクティベーションに基づくものは、しばしば分布的に類似したデータを必要とする。
これは、バックドアのような、アウト・オブ・ディストリビューション(out-of-distribution)の定義による、新たな潜在的な脅威を検出し、防御する際の重要な制限である。
本研究では,活性化ではなく重みを解釈する微調整LDMの理解,監視,制御を行う新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差の頂点特異ベクトルは、新たに獲得した挙動に対応することを実証する。
これらの方向に沿った活性化のコサイン類似性を監視することにより、高精度な微調整で導入した健全な行動を検出することができる。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
未学習のモデルでは、95.42%の精度で削除されたトピックの推測を検出し、「未学習」情報を復元するためにモデルを操ることもできる。
また,本手法は,市販の命令調整モデル(OLMo,Llama,Qwen)を解析することにより,マーケティング戦略やMidjourneyプロンプト生成を含む,モデル固有の微調整の焦点を明らかにすることができる。
私たちの実装はhttps://github.com/fjzzq2002/WeightWatch.comで確認できます。
関連論文リスト
- Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Constraining Representations Yields Models That Know What They Don't
Know [2.729898906885749]
ニューラルネットワークのよく知られた障害モードは、誤った予測を確実に返すことである。
この研究は、これらの問題に広く一般的な方法で対処するための新しい方向性を示す。
私たちは各クラスにユニークな、固定された、ランダムに生成されたバイナリベクタを割り当てます。
我々は、入力サンプルのクラスに従って、そのクロスディープなアクティベーションパターンが適切なクラスコードを予測するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T18:28:00Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Identifying Backdoor Attacks in Federated Learning via Anomaly Detection [31.197488921578984]
フェデレーション学習はバックドア攻撃に弱い。
本稿では,共有モデル更新を検証し,攻撃に対する効果的な防御方法を提案する。
提案手法が最先端のバックドア攻撃を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2022-02-09T07:07:42Z) - Monitoring Model Deterioration with Explainable Uncertainty Estimation
via Non-parametric Bootstrap [0.0]
一度デプロイされた機械学習モデルを監視することは難しい。
ラベル付きデータが到達範囲を超えている場合、実際のシナリオでモデルをいつ再トレーニングするかを判断するのはさらに難しい。
本研究では,非パラメトリックブートストラップ型不確実性推定とSHAP値を用いて説明可能な不確実性推定を行う。
論文 参考訳(メタデータ) (2022-01-27T17:23:04Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Model Assertions for Monitoring and Improving ML Models [26.90089824436192]
本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。
モデルアサーションは、モデルがいつエラーが発生したかを示す入力と出力の任意の関数である。
本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。
論文 参考訳(メタデータ) (2020-03-03T17:49:49Z) - Fast and Three-rious: Speeding Up Weak Supervision with Triplet Methods [24.190587751595455]
弱監督は、基底的真理アノテーションに頼ることなく機械学習モデルを構築する一般的な方法である。
既存の手法では、雑音源をモデル化するために潜時変数推定を用いる。
弱監督に高度に適用可能な潜在変数モデルのクラスについて、モデルパラメータに対する閉形式解を見つけることができることを示す。
この洞察を使ってFlyingSquidを構築します。FlyingSquidは、以前の弱い監視アプローチよりも桁違いに高速に実行される弱い監視フレームワークです。
論文 参考訳(メタデータ) (2020-02-27T07:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。