論文の概要: Differentiable Faithfulness Alignment for Cross-Model Circuit Transfer
- arxiv url: http://arxiv.org/abs/2604.24302v1
- Date: Mon, 27 Apr 2026 10:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.909681
- Title: Differentiable Faithfulness Alignment for Cross-Model Circuit Transfer
- Title(参考訳): クロスモデル回路転送のための微分可能忠実度アライメント
- Authors: Shun Shao, Binxu Wang, Shay B. Cohen, Anna Korhonen, Yonatan Belinkov,
- Abstract要約: DFAは、より小さなソースモデルからより大きなターゲットモデルに回路情報を転送するフレームワークである。
Llama-3 と Qwen-2.5 の DFA を,実数検索,複数選択推論,算術の6つのタスクで評価した。
DFAは、単純なベースラインを一貫して上回り、いくつかの設定では、直接帰属に匹敵する、あるいは強い忠実さでターゲットモデル回路を回復する。
- 参考スコア(独自算出の注目度): 73.0825876244911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability has made it possible to localize circuits underlying specific behaviors in language models, but existing methods are expensive, model-specific, and difficult to scale to larger architectures. We introduce \textbf{Differentiable Faithfulness Alignment (DFA)}, a framework that transfers circuit information from a smaller source model to a larger target model through a learned differentiable alignment. DFA projects source-model node importance scores into the target model and trains this mapping with a soft faithfulness objective, avoiding full circuit discovery on the target model. We evaluate DFA on Llama-3 and Qwen-2.5 across six tasks spanning factual retrieval, multiple-choice reasoning, and arithmetic. The strongest results occur on Llama-3 $1$B$\rightarrow3$B, where aligned circuits are often competitive with direct node attribution and zero-shot transfer remains effective. Recovery weakens for larger source--target gaps and is substantially lower on Qwen-2.5, suggesting that transfer becomes harder as architectural and scaling differences increase. Overall, DFA consistently outperforms simple baselines and, in some settings, recovers target-model circuits with faithfulness comparable to or stronger than direct attribution. These results suggest that smaller models can provide useful mechanistic priors for larger ones, while highlighting both the promise and the limits of node-level cross-model circuit alignment.\footnote{Code is available at https://github.com/jasonshaoshun/dfa-circuits.
- Abstract(参考訳): 機械的解釈可能性により、言語モデルにおける特定の振る舞いに基づく回路のローカライズが可能になったが、既存の手法は高価であり、モデル固有のものであり、より大きなアーキテクチャにスケールすることが困難である。
本稿では、より小さなソースモデルから学習可能なアライメントを通じて、より大きなターゲットモデルに回路情報を転送するフレームワークである「textbf{Differentiable Faithfulness Alignment (DFA)」を紹介する。
DFAは、ソースモデルノードの重要度スコアをターゲットモデルに投影し、このマッピングをソフト忠実度目標でトレーニングし、ターゲットモデルでの完全な回路発見を避ける。
Llama-3 と Qwen-2.5 の DFA を,実数検索,複数選択推論,算術の6つのタスクで評価した。
Llama-3 $1$B$\rightarrow3$B では、アライメント回路は直接ノード属性と競合し、ゼロショット転送は有効である。
ソース-ターゲットギャップが大きくなり、Qwen-2.5では大幅に減少し、アーキテクチャとスケーリングの違いが増加するにつれて転送が困難になる。
全体として、DFAは単純なベースラインを一貫して上回り、いくつかの設定では、直接帰属に匹敵する、あるいは強い忠実さでターゲットモデル回路を回復する。
これらの結果から,より小さなモデルでは,ノードレベルのクロスモデル回路アライメントの約束と限界を強調しながら,より大きなモデルに対して有用なメカニスティックな事前計算が可能であることが示唆された。
\footnote{Codeはhttps://github.com/jasonshaoshun/dfa-circuits.comで入手できる。
関連論文リスト
- Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs [4.8608047541422925]
クロスコーダはクロスアーキテクチャモデルの拡散が可能な一つのソリューションであるが、ベースとファインチューンの比較にしか適用されていない。
本稿では,DFC (Dedicated Feature Crosscoders) を導入する。
この手法を用いて,中国共産党のQwen3-8BとDeepseek-R1-0528-Qwen3-8Bにおけるアライメント,Llama3.1-8B-Instructにおけるアメリカの例外主義,GPT-OSS-20Bにおける著作権拒絶機構など,教師なしのスタイルの特徴を見出した。
論文 参考訳(メタデータ) (2026-02-12T08:53:25Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - GenEDA: Towards Generative Netlist Functional Reasoning via Cross-Modal Circuit Encoder-Decoder Alignment [8.115489346573918]
既存のトレーニング済みの回路基礎モデルは、予測タスクのスタンドアロンエンコーダや生成タスクのデコーダに限られる。
我々は,回路エンコーダとデコーダを相互に協調する最初のフレームワークであるGenEDAを提案する。
このアーキテクチャを活用して、ネットリストのための最初の生成基盤モデルを構築します。
論文 参考訳(メタデータ) (2025-04-13T08:56:22Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms [35.514624827207136]
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
論文 参考訳(メタデータ) (2024-03-26T15:44:58Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。