論文の概要: The Universal Weight Subspace Hypothesis
- arxiv url: http://arxiv.org/abs/2512.05117v2
- Date: Sat, 06 Dec 2025 04:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 13:50:38.558561
- Title: The Universal Weight Subspace Hypothesis
- Title(参考訳): ユニバーサルウェイト部分空間仮説
- Authors: Prakhar Kaushik, Shravan Chaudhari, Ankit Vaidya, Rama Chellappa, Alan Yuille,
- Abstract要約: 様々なタスクで訓練されたディープニューラルネットワークは、非常によく似た低次元のパラメトリック部分空間を示す。
ニューラルネットワークが共有スペクトル部分空間に体系的に収束することを示す最初の大規模な経験的証拠を提供する。
この固有の構造は、モデル再利用可能性、マルチタスク学習、モデルマージ、およびトレーニングと推論効率のアルゴリズムの開発に重要な意味を持つ。
- 参考スコア(独自算出の注目度): 32.4267950435704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that deep neural networks trained across diverse tasks exhibit remarkably similar low-dimensional parametric subspaces. We provide the first large-scale empirical evidence that demonstrates that neural networks systematically converge to shared spectral subspaces regardless of initialization, task, or domain. Through mode-wise spectral analysis of over 1100 models - including 500 Mistral-7B LoRAs, 500 Vision Transformers, and 50 LLaMA-8B models - we identify universal subspaces capturing majority variance in just a few principal directions. By applying spectral decomposition techniques to the weight matrices of various architectures trained on a wide range of tasks and datasets, we identify sparse, joint subspaces that are consistently exploited, within shared architectures across diverse tasks and datasets. Our findings offer new insights into the intrinsic organization of information within deep networks and raise important questions about the possibility of discovering these universal subspaces without the need for extensive data and computational resources. Furthermore, this inherent structure has significant implications for model reusability, multi-task learning, model merging, and the development of training and inference-efficient algorithms, potentially reducing the carbon footprint of large-scale neural models.
- Abstract(参考訳): 多様なタスクで訓練されたディープニューラルネットワークは、非常によく似た低次元のパラメトリック部分空間を示す。
ニューラルネットワークが初期化やタスク,ドメインに関わらず,共有スペクトル部分空間に体系的に収束することを示す,最初の大規模な経験的証拠を提供する。
500 Mistral-7B LoRAs、500 Vision Transformers、50 LLaMA-8Bモデルを含む1100以上のモデルのモードワイドスペクトル分析により、いくつかの主方向で多数分散を捉えた普遍部分空間を同定する。
多様なタスクやデータセットで訓練された各種アーキテクチャの重み行列にスペクトル分解技術を適用することにより、多様なタスクやデータセットをまたいだ共有アーキテクチャ内で、一貫して活用される疎結合部分空間を同定する。
本研究は,深層ネットワークにおける情報構造に関する新たな知見を提供するとともに,膨大なデータや計算資源を必要とせずに,これらの普遍的な部分空間を発見する可能性について重要な疑問を提起する。
さらに、この固有の構造は、モデル再利用可能性、マルチタスク学習、モデルマージ、トレーニングと推論効率のアルゴリズムの開発に重要な意味を持ち、大規模ニューラルネットワークの炭素フットプリントを減少させる可能性がある。
関連論文リスト
- Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。
解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文 参考訳(メタデータ) (2024-11-01T10:21:12Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - SeisCLIP: A seismology foundation model pre-trained by multi-modal data
for multi-purpose seismic feature extraction [16.01738433164131]
マルチモーダルデータからのコントラスト学習を通じて学習した地震基盤モデルであるSeesCLIPを開発した。
時間周波数の地震スペクトルから重要な特徴を抽出するトランスフォーマーエンコーダと、同じ事象の位相とソース情報を統合するための基礎エンコーダから構成される。
特に、SeesCLIPのパフォーマンスは、イベント分類、ローカライゼーション、焦点機構解析タスクにおけるベースライン手法を上回る。
論文 参考訳(メタデータ) (2023-09-05T15:40:13Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Attentive Multi-View Deep Subspace Clustering Net [4.3386084277869505]
我々は,AMVDSN(Attentive Multi-View Deep Subspace Nets)を提案する。
提案手法は,コンセンサス情報とビュー固有情報の両方を明示的に考慮した有意な潜在表現を求める。
7つの実世界のデータセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-23T12:57:26Z) - Generalization in Multimodal Language Learning from Simulation [20.751952728808153]
教師付き時間連続設定で学習した最小限のLSTMネットワークにおいて、基礎となるトレーニングデータ分布が一般化に与える影響について検討する。
構成的一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善する。
論文 参考訳(メタデータ) (2021-08-03T12:55:18Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Multi-Subspace Neural Network for Image Recognition [33.61205842747625]
画像分類タスクでは, 特徴抽出は常に大きな問題であり, クラス内変動により抽出器の設計が困難になる。
近年、ディープラーニングはデータから機能を自動的に学習することに多くの注意を払っている。
本研究では,畳み込みニューラルネットワーク(CNN)のキーコンポーネントをサブスペースの概念と組み合わせたマルチサブスペースニューラルネットワーク(MSNN)を提案する。
論文 参考訳(メタデータ) (2020-06-17T02:55:34Z) - Seismic horizon detection with neural networks [62.997667081978825]
本稿では,複数の実地震立方体上での地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
本研究の主な貢献は,複数実地震立方体における地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
論文 参考訳(メタデータ) (2020-01-10T11:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。