論文の概要: Stochastic Parameter Decomposition
- arxiv url: http://arxiv.org/abs/2506.20790v1
- Date: Wed, 25 Jun 2025 19:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.864189
- Title: Stochastic Parameter Decomposition
- Title(参考訳): 確率的パラメータ分解
- Authors: Lucius Bushnaq, Dan Braun, Lee Sharkey,
- Abstract要約: リバースエンジニアリングニューラルネットワークにおける重要なステップは、それらを比較的孤立して研究できるより単純な部分に分解することだ。
このフレームワークの現在の主要なメソッドは、属性ベースである。
分解(APD)は計算コストのため実用的ではない。
textitStochasticを導入します。
分解(SPD)は、よりスケーラブルで堅牢な方法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key step in reverse engineering neural networks is to decompose them into simpler parts that can be studied in relative isolation. Linear parameter decomposition -- a framework that has been proposed to resolve several issues with current decomposition methods -- decomposes neural network parameters into a sum of sparsely used vectors in parameter space. However, the current main method in this framework, Attribution-based Parameter Decomposition (APD), is impractical on account of its computational cost and sensitivity to hyperparameters. In this work, we introduce \textit{Stochastic Parameter Decomposition} (SPD), a method that is more scalable and robust to hyperparameters than APD, which we demonstrate by decomposing models that are slightly larger and more complex than was possible to decompose with APD. We also show that SPD avoids other issues, such as shrinkage of the learned parameters, and better identifies ground truth mechanisms in toy models. By bridging causal mediation analysis and network decomposition methods, this demonstration opens up new research possibilities in mechanistic interpretability by removing barriers to scaling linear parameter decomposition methods to larger models. We release a library for running SPD and reproducing our experiments at https://github.com/goodfire-ai/spd.
- Abstract(参考訳): リバースエンジニアリングニューラルネットワークにおける重要なステップは、それらを比較的孤立して研究できるより単純な部分に分解することだ。
現在の分解メソッドでいくつかの問題を解決するために提案された、線形パラメータ分解(Linear parameter decomposition)は、ニューラルネットワークパラメータを、パラメータ空間でスパースに使用されるベクトルの和に分解する。
しかし、このフレームワークの現在の主要な手法であるAttribution-based Parameter Decomposition (APD)は、計算コストとハイパーパラメータに対する感度を考慮すると実用的ではない。
本研究では,SPDよりも拡張性が高く,高パラメータに対して堅牢な手法である \textit{Stochastic Parameter Decomposition} (SPD) を紹介する。
また、SPDは学習パラメータの縮小などの他の問題を避け、玩具モデルにおける基底的真理メカニズムをよりよく識別することを示した。
因果媒介分析とネットワーク分解法をブリッジすることで, 線形パラメータ分解法を大規模モデルに拡張する障壁を取り除くことにより, 機械的解釈可能性の新たな研究可能性を開く。
SPDを実行し、実験をhttps://github.com/goodfire-ai/spd.comで再現するライブラリをリリースします。
関連論文リスト
- Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - Interpretability in Parameter Space: Minimizing Mechanistic Description Length with Attribution-based Parameter Decomposition [0.0]
我々は、属性に基づく分解(APD)の概念的基礎を導入する。
APDは、ニューラルネットワークのパラメータを直接、元のネットワークのパラメータに忠実なコンポーネントに分解する。
玩具実験環境における地中真理メカニズムの同定に成功してAPDの有効性を実証する。
論文 参考訳(メタデータ) (2025-01-24T21:31:12Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Activated Parameter Locating via Causal Intervention for Model Merging [26.98015572633289]
モデルマージは複数のモデルを1つのモデルに組み合わせ、追加のトレーニングを必要とせずに、説得力のある一般化を実現する。
既存のモデルでは、デルタパラメータの一部を落として、パフォーマンスを維持しながらコンフリクトを緩和できることが示されている。
本稿では、因果的介入を利用して重要度を推定し、より正確なパラメータのドロップとコンフリクトの軽減を可能にするアクティブ・ロケーティング(APL)手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T14:00:00Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。