論文の概要: Decomposition of Small Transformer Models
- arxiv url: http://arxiv.org/abs/2511.08854v1
- Date: Thu, 13 Nov 2025 01:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.25828
- Title: Decomposition of Small Transformer Models
- Title(参考訳): 小形変圧器モデルの分解
- Authors: Casper L. Christensen, Logan Riggs,
- Abstract要約: 機械論的解釈可能性に関する最近の研究は、パラメータ空間における分解モデルが解析と介入のためのクリーンハンドリングをもたらすことを示した。
従来の手法では、幅広いおもちゃのモデルにうまく応用できたが、「本物のモデル」とのギャップはまだ橋渡しされていない。
- 参考スコア(独自算出の注目度): 0.8536845899508164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in mechanistic interpretability has shown that decomposing models in parameter space may yield clean handles for analysis and intervention. Previous methods have demonstrated successful applications on a wide range of toy models, but the gap to "real models" has not yet been bridged. In this work, we extend Stochastic Parameter Decomposition (SPD) to Transformer models, proposing an updated causal importance function suited for sequential data and a new loss function. We demonstrate that SPD can successfully decompose a toy induction-head model and recover the expected 2-step circuit. We also show that applying SPD to GPT-2-small can successfully locate subcomponents corresponding to interpretable concepts like "golf" and "basketball". These results take the first step in the direction of extending SPD to modern models, and show that we can use the method to surface interpretable parameter-space mechanisms.
- Abstract(参考訳): 機械論的解釈可能性に関する最近の研究は、パラメータ空間における分解モデルが解析と介入のためのクリーンなハンドリングをもたらすことを示している。
従来の手法では、幅広いおもちゃのモデルにうまく応用できたが、「本物のモデル」とのギャップはまだ橋渡しされていない。
本研究では,Stochastic Parameter Decomposition(SPD)をTransformerモデルに拡張し,逐次データに適した因果重要関数と新たな損失関数を提案する。
本研究では,SPDが玩具誘導ヘッドモデルを分解し,期待される2ステップ回路を復元できることを実証する。
また, GPT-2-smallにSPDを適用することで, 「ゴルフ」や「バスケットボール」といった解釈可能な概念に対応するサブコンポーネントの発見に成功していることを示す。
これらの結果は、SPDを現代のモデルに拡張する方向への第一歩を踏み出し、この手法を用いて解釈可能なパラメータ空間機構を創出できることを示す。
関連論文リスト
- Stochastic Parameter Decomposition [4.033166813570093]
リバースエンジニアリングニューラルネットワークにおける重要なステップは、それらを比較的孤立して研究できるより単純な部分に分解することだ。
このフレームワークの現在の主要なメソッドは、属性ベースである。
分解(APD)は計算コストのため実用的ではない。
textitStochasticを導入します。
分解(SPD)は、よりスケーラブルで堅牢な方法である。
論文 参考訳(メタデータ) (2025-06-25T19:26:31Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Bayesian Circular Regression with von Mises Quasi-Processes [57.88921637944379]
本研究では、円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
後部推論のために,高速ギブズサンプリングに寄与するストラトノビッチ様拡張法を導入する。
本研究では,このモデルを用いて風向予測と走行歩行周期のパーセンテージを関節角度の関数として適用する実験を行った。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Scalable mixed-domain Gaussian process modeling and model reduction for longitudinal data [5.00301731167245]
混合領域共分散関数に対する基底関数近似スキームを導出する。
我々は,GPモデルの精度をランタイムのごく一部で正確に近似できることを示す。
また、より小さく、より解釈可能なモデルを得るためのスケーラブルなモデルリダクションワークフローを実証する。
論文 参考訳(メタデータ) (2021-11-03T04:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。