論文の概要: Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs
- arxiv url: http://arxiv.org/abs/2602.11729v1
- Date: Thu, 12 Feb 2026 08:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.733433
- Title: Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs
- Title(参考訳): クロスコーダを用いたクロスアーキテクチャモデルディッフィング:LLM間の差異の教師なし発見
- Authors: Thomas Jiralerspong, Trenton Bricken,
- Abstract要約: クロスコーダはクロスアーキテクチャモデルの拡散が可能な一つのソリューションであるが、ベースとファインチューンの比較にしか適用されていない。
本稿では,DFC (Dedicated Feature Crosscoders) を導入する。
この手法を用いて,中国共産党のQwen3-8BとDeepseek-R1-0528-Qwen3-8Bにおけるアライメント,Llama3.1-8B-Instructにおけるアメリカの例外主義,GPT-OSS-20Bにおける著作権拒絶機構など,教師なしのスタイルの特徴を見出した。
- 参考スコア(独自算出の注目度): 4.8608047541422925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model diffing, the process of comparing models' internal representations to identify their differences, is a promising approach for uncovering safety-critical behaviors in new models. However, its application has so far been primarily focused on comparing a base model with its finetune. Since new LLM releases are often novel architectures, cross-architecture methods are essential to make model diffing widely applicable. Crosscoders are one solution capable of cross-architecture model diffing but have only ever been applied to base vs finetune comparisons. We provide the first application of crosscoders to cross-architecture model diffing and introduce Dedicated Feature Crosscoders (DFCs), an architectural modification designed to better isolate features unique to one model. Using this technique, we find in an unsupervised fashion features including Chinese Communist Party alignment in Qwen3-8B and Deepseek-R1-0528-Qwen3-8B, American exceptionalism in Llama3.1-8B-Instruct, and a copyright refusal mechanism in GPT-OSS-20B. Together, our results work towards establishing cross-architecture crosscoder model diffing as an effective method for identifying meaningful behavioral differences between AI models.
- Abstract(参考訳): モデル差分法(モデル差分法)は、モデルの内部表現を比較してそれらの相違を識別するプロセスであり、新しいモデルにおける安全クリティカルな振る舞いを明らかにするための有望なアプローチである。
しかし、これまでのところ、そのアプリケーションはベースモデルと精巧さを比較することに重点を置いている。
新しいLCMリリースは、しばしば新しいアーキテクチャであるため、モデル拡散を広く適用するためには、クロスアーキテクチャ手法が不可欠である。
クロスコーダはクロスアーキテクチャモデルの拡散が可能な一つのソリューションであるが、ベースとファインチューンの比較にしか適用されていない。
クロスコーダのクロスアーキテクチャモデルへの最初の応用として,DFC(Dedicated Feature Crosscoders)を導入した。
この手法を用いて,中国共産党のQwen3-8BとDeepseek-R1-0528-Qwen3-8Bにおけるアライメント,Llama3.1-8B-Instructにおけるアメリカの例外主義,GPT-OSS-20Bにおける著作権拒絶機構など,教師なしのスタイルの特徴を見出した。
本研究は,AIモデル間の意味ある行動差を識別する有効な手法として,クロスアーキテクチャ・クロスコーダモデル差分法を確立することを目的としている。
関連論文リスト
- Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs [27.331524018411926]
時間依存シミュレーションタスクに対して,エンコーダのみのモデルとデコーダのみのモデルを比較した。
デコーダのみのモデルは、既存のアプローチを修正せずに適用した場合に、エンコーダのみのモデルよりもはるかに悪いことが判明した。
自己回帰モデルにおいて、双方向性を模倣しようとする2つの新しいアプローチ、Parallel FlippingとSequence Duublingを導入する。
論文 参考訳(メタデータ) (2025-10-06T18:46:50Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability [9.90112908284836]
Sparse Autoencoders for Aligned Representation of Concepts)は,多種多様なアーキテクチャで共有される単一で統一された潜在空間を学習する新しいフレームワークである。
Open Imagesでは、概念のアライメントが劇的に改善され、ジャカードの類似性が0.80に到達した。
論文 参考訳(メタデータ) (2025-07-07T22:29:00Z) - Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture [65.88390432432116]
自己回帰(AR)モデルの代替として、仮面拡散モデル(MDM)が登場している。
ARモデルはデコーダのみであることが多いが、MDMはエンコーダのみである。
本研究は,デコーダのみのフレームワークにおけるMDMを評価した。
MDM内でアーキテクチャの影響(デコーダのみ対エンコーダのみ)を調査する。
論文 参考訳(メタデータ) (2025-06-24T18:22:25Z) - Cross-architecture universal feature coding via distribution alignment [88.73189953617594]
クロスアーキテクチャユニバーサル特徴符号化(CAUFC)という新しい研究課題を導入する。
まず,CNN と Transformer が一貫した2次元トークン形式に特徴付けるフォーマットアライメント手法を設計し,また,トランケーションと正規化によって統計分布を調和させる特徴値アライメント手法を提案する。
本稿では,CAUFCを最初に研究する試みとして,画像分類作業における手法の評価を行い,本手法がアーキテクチャ固有のベースラインに比べて高いレート精度のトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2025-06-15T06:14:02Z) - Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning [9.761667621068787]
クロスコーダは、ベースモデルと微調整モデルの両方において遅延方向として表される解釈可能な概念の共用辞書を学習する、最近のモデル微分法である。
両モデルに実際に存在するとき,概念を微調整モデルに固有のものと誤帰できるクロスコーダL1のトレーニング損失に起因する2つの問題を同定する。
BatchTopKの損失でクロスコーダをトレーニングし、これらの問題を大幅に軽減し、より真にチャット特化され、高度に解釈可能な概念を見つけます。
論文 参考訳(メタデータ) (2025-04-03T17:50:24Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。