論文の概要: Delta-Crosscoder: Robust Crosscoder Model Diffing in Narrow Fine-Tuning Regimes
- arxiv url: http://arxiv.org/abs/2603.04426v1
- Date: Mon, 16 Feb 2026 23:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.204359
- Title: Delta-Crosscoder: Robust Crosscoder Model Diffing in Narrow Fine-Tuning Regimes
- Title(参考訳): デルタクロスコーダ:狭小調整レジームにおけるロバストクロスコーダモデル
- Authors: Aly Kassem, Thomas Jiralerspong, Negar Rostamzadeh, Golnoosh Farnadi,
- Abstract要約: クロスコーダは、ベースモデルと微調整モデルの間で解釈可能な遅延方向の共有辞書を学習する。
本稿では,BatchTopK空間とモデル間で変化する差分優先方向を組み合わせたデルタクロスコーダを提案する。
- 参考スコア(独自算出の注目度): 16.269397514663417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model diffing methods aim to identify how fine-tuning changes a model's internal representations. Crosscoders approach this by learning shared dictionaries of interpretable latent directions between base and fine-tuned models. However, existing formulations struggle with narrow fine-tuning, where behavioral changes are localized and asymmetric. We introduce Delta-Crosscoder, which combines BatchTopK sparsity with a delta-based loss prioritizing directions that change between models, plus an implicit contrastive signal from paired activations on matched inputs. Evaluated across 10 model organisms, including synthetic false facts, emergent misalignment, subliminal learning, and taboo word guessing (Gemma, LLaMA, Qwen; 1B-9B parameters), Delta-Crosscoder reliably isolates latent directions causally responsible for fine-tuned behaviors and enables effective mitigation, outperforming SAE-based baselines, while matching the Non-SAE-based. Our results demonstrate that crosscoders remain a powerful tool for model diffing.
- Abstract(参考訳): モデル差分法は、モデルの内部表現がどのように微調整されるかを特定することを目的としている。
クロスコーダは、ベースモデルと微調整モデルの間の解釈可能な潜在方向の共有辞書を学習することで、これをアプローチする。
しかし、既存の定式化は、行動の変化が局所化され非対称となる狭い微調整に苦慮している。
本稿では,BatchTopK間隔とモデル間で変化する差分優先方向と,一致した入力に対するペアアクティベーションからの暗黙のコントラスト信号を組み合わせたデルタクロスコーダを提案する。
合成偽事実、創発的ミスアライメント、サブリミナル学習、タブー単語推定(Gemma, LLaMA, Qwen; 1B-9Bパラメータ)を含む10のモデル生物で評価され、Delta-Crosscoderは、非SAEベースのベースラインに適合しながら、細調整された振る舞いに因果的に責任を負う潜伏方向を確実に分離し、効果的な緩和を可能にする。
我々の結果は、クロスコーダがモデル拡散の強力なツールであることを示しています。
関連論文リスト
- From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Rethinking Layer-wise Model Merging through Chain of Merges [21.26982153528304]
Chain of Merges(CoM)は、層間で重みを順次マージし、アクティベーション統計を逐次更新するレイヤワイドマージ手順である。
標準ベンチマークの実験では、CoMが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-08-29T08:44:47Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning [9.761667621068787]
クロスコーダは、ベースモデルと微調整モデルの両方において遅延方向として表される解釈可能な概念の共用辞書を学習する、最近のモデル微分法である。
両モデルに実際に存在するとき,概念を微調整モデルに固有のものと誤帰できるクロスコーダL1のトレーニング損失に起因する2つの問題を同定する。
BatchTopKの損失でクロスコーダをトレーニングし、これらの問題を大幅に軽減し、より真にチャット特化され、高度に解釈可能な概念を見つけます。
論文 参考訳(メタデータ) (2025-04-03T17:50:24Z) - Dual Path Modeling for Semantic Matching by Perceiving Subtle Conflicts [14.563722352134949]
トランスフォーマーベースの事前学習モデルではセマンティックマッチングが大幅に改善されている。
既存のモデルでは微妙な違いを捉える能力が不足している。
本稿では、微妙な違いを知覚するモデルの能力を高めるために、新しいデュアルパスモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-24T09:29:55Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。