論文の概要: Towards Scalable and Versatile Weight Space Learning
- arxiv url: http://arxiv.org/abs/2406.09997v1
- Date: Fri, 14 Jun 2024 13:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:45:23.967416
- Title: Towards Scalable and Versatile Weight Space Learning
- Title(参考訳): スケーラブルでヴァーサタイルな空間学習を目指して
- Authors: Konstantin Schürholt, Michael W. Mahoney, Damian Borth,
- Abstract要約: 本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
- 参考スコア(独自算出の注目度): 51.78426981947659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning representations of well-trained neural network models holds the promise to provide an understanding of the inner workings of those models. However, previous work has either faced limitations when processing larger networks or was task-specific to either discriminative or generative tasks. This paper introduces the SANE approach to weight-space learning. SANE overcomes previous limitations by learning task-agnostic representations of neural networks that are scalable to larger models of varying architectures and that show capabilities beyond a single task. Our method extends the idea of hyper-representations towards sequential processing of subsets of neural network weights, thus allowing one to embed larger neural networks as a set of tokens into the learned representation space. SANE reveals global model information from layer-wise embeddings, and it can sequentially generate unseen neural network models, which was unattainable with previous hyper-representation learning methods. Extensive empirical evaluation demonstrates that SANE matches or exceeds state-of-the-art performance on several weight representation learning benchmarks, particularly in initialization for new tasks and larger ResNet architectures.
- Abstract(参考訳): 十分に訓練されたニューラルネットワークモデルの学習表現は、それらのモデルの内部動作を理解することを約束する。
しかし、以前の作業では、より大きなネットワークを処理する場合や、識別的タスクや生成的タスクにタスク固有の場合の制限に直面していた。
本稿では,重み空間学習におけるSANEアプローチを紹介する。
SANEは、さまざまなアーキテクチャの大規模モデルにスケーラブルで、1つのタスクを超えて機能を示すニューラルネットワークのタスクに依存しない表現を学ぶことで、これまでの制限を克服している。
提案手法は,ニューラルネットワーク重みのサブセットの逐次処理に向けてのハイパー表現の概念を拡張し,学習された表現空間にトークンの集合としてより大きなニューラルネットワークを埋め込むことを可能にする。
SANEはレイヤワイドな埋め込みからグローバルモデル情報を公開し、従来のハイパー表現学習手法では不可能だった、目に見えないニューラルネットワークモデルを逐次生成することができる。
大規模な経験的評価は、SANEがいくつかの重み表現学習ベンチマークにおいて、特に新しいタスクの初期化やより大きなResNetアーキテクチャにおいて、最先端のパフォーマンスと一致または超えていることを示している。
関連論文リスト
- High-dimensional learning of narrow neural networks [1.7094064195431147]
この原稿は、機械学習の最近の進歩の根底にあるツールとアイデアをレビューしている。
本稿では,これまで研究されてきたモデルを特殊インスタンスとして包含する汎用モデル(シーケンスマルチインデックスモデル)を提案する。
複製法や近似メッセージパッシングアルゴリズムなどの統計物理手法を用いて,シーケンス多重インデックスモデルの学習過程を詳細に解析する。
論文 参考訳(メタデータ) (2024-09-20T21:20:04Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Interpretability of an Interaction Network for identifying $H
\rightarrow b\bar{b}$ jets [4.553120911976256]
近年、ディープニューラルネットワークに基づくAIモデルは、これらのアプリケーションの多くで人気が高まっている。
我々は、高揚した$Hto bbarb$ jetを識別するために設計されたインタラクションネットワーク(IN)モデルを調べることで、AIモデルの解釈可能性を検討する。
さらに、INモデル内の隠れレイヤの活動を、ニューラルアクティベーションパターン(NAP)ダイアグラムとして記述する。
論文 参考訳(メタデータ) (2022-11-23T08:38:52Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - The Multiple Subnetwork Hypothesis: Enabling Multidomain Learning by
Isolating Task-Specific Subnetworks in Feedforward Neural Networks [0.0]
我々は,未使用の重み付きネットワークがその後のタスクを学習するための方法論とネットワーク表現構造を同定する。
提案手法を用いてトレーニングされたネットワークは,タスクのパフォーマンスを犠牲にすることなく,あるいは破滅的な忘れを伴わずに,複数のタスクを学習できることを示す。
論文 参考訳(メタデータ) (2022-07-18T15:07:13Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - The Self-Simplifying Machine: Exploiting the Structure of Piecewise
Linear Neural Networks to Create Interpretable Models [0.0]
本稿では,分類タスクに対するPiecewise Linear Neural Networksの単純化と解釈性向上のための新しい手法を提案する。
我々の手法には、トレーニングを伴わずに、訓練された深層ネットワークを使用して、良好なパフォーマンスと単一隠れ層ネットワークを生成する方法が含まれる。
これらの手法を用いて,モデル性能の予備的研究およびウェルズ・ファーゴのホームレンディングデータセットのケーススタディを行う。
論文 参考訳(メタデータ) (2020-12-02T16:02:14Z) - Graph-Based Neural Network Models with Multiple Self-Supervised
Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。
マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文 参考訳(メタデータ) (2020-11-14T11:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。