論文の概要: Hyper-Representations: Learning from Populations of Neural Networks
- arxiv url: http://arxiv.org/abs/2410.05107v1
- Date: Mon, 7 Oct 2024 15:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:18:32.944690
- Title: Hyper-Representations: Learning from Populations of Neural Networks
- Title(参考訳): ハイパー表現:ニューラルネットワークの人口から学ぶ
- Authors: Konstantin Schürholt,
- Abstract要約: この論文は、最も基本的なコンポーネントである重みのレンズを通してニューラルネットワークを理解するという課題に対処する。
この論文では、トレーニングされたNNモデルが、重み空間における意味のある構造を実際に占めており、学習と使用が可能であることを発見した。
- 参考スコア(独自算出の注目度): 3.8979646385036175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis addresses the challenge of understanding Neural Networks through the lens of their most fundamental component: the weights, which encapsulate the learned information and determine the model behavior. At the core of this thesis is a fundamental question: Can we learn general, task-agnostic representations from populations of Neural Network models? The key contribution of this thesis to answer that question are hyper-representations, a self-supervised method to learn representations of NN weights. Work in this thesis finds that trained NN models indeed occupy meaningful structures in the weight space, that can be learned and used. Through extensive experiments, this thesis demonstrates that hyper-representations uncover model properties, such as their performance, state of training, or hyperparameters. Moreover, the identification of regions with specific properties in hyper-representation space allows to sample and generate model weights with targeted properties. This thesis demonstrates applications for fine-tuning, and transfer learning to great success. Lastly, it presents methods that allow hyper-representations to generalize beyond model sizes, architectures, and tasks. The practical implications of that are profound, as it opens the door to foundation models of Neural Networks, which aggregate and instantiate their knowledge across models and architectures. Ultimately, this thesis contributes to the deeper understanding of Neural Networks by investigating structures in their weights which leads to more interpretable, efficient, and adaptable models. By laying the groundwork for representation learning of NN weights, this research demonstrates the potential to change the way Neural Networks are developed, analyzed, and used.
- Abstract(参考訳): この論文は、学習した情報をカプセル化し、モデルの振る舞いを決定する重みという、最も基本的なコンポーネントのレンズを通してニューラルネットワークを理解するという課題に対処する。
ニューラルネットワークモデルの集団から一般的なタスクに依存しない表現を学べるだろうか?
この問いに答えるための重要な貢献は超表現であり、NN重みの表現を学習するための自己指導的な方法である。
この論文では、トレーニングされたNNモデルが、重み空間における意味のある構造を実際に占めており、学習と使用が可能であることを発見した。
広範な実験を通じて、この論文はハイパー表現が、その性能、トレーニング状態、ハイパーパラメータなどのモデル特性を明らかにすることを実証している。
さらに、超表現空間における特定の性質を持つ領域の同定により、対象特性を持つモデル重みのサンプリングと生成が可能となる。
この論文は、微調整や転向学習の応用を大いに成功に導くものである。
最後に、ハイパー表現がモデルのサイズ、アーキテクチャ、タスクを超えて一般化できるようにする方法を示す。
ニューラルネットワークの基盤モデルへの扉を開くことで、モデルやアーキテクチャにまたがる知識を集約し、インスタンス化するのだ。
最終的に、この論文はニューラルネットワークのより深い理解に寄与し、その重みの中の構造を調べ、より解釈可能で効率的で適応可能なモデルを生み出す。
NN重みの表現学習の基礎を築き,ニューラルネットワークの開発,解析,利用の方法を変える可能性を実証した。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文 参考訳(メタデータ) (2023-10-25T04:22:40Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - A Detailed Study of Interpretability of Deep Neural Network based Top
Taggers [3.8541104292281805]
説明可能なAI(XAI)の最近の進歩により、研究者はディープニューラルネットワーク(DNN)の内部動作を探索できる。
大型ハドロン衝突型加速器(LHC)における高エネルギー陽子-陽子衝突におけるトップクォーク崩壊からのジェットの解釈可能性について検討する。
本研究は,既存のXAI手法の大きな落とし穴を明らかにし,これらのモデルの一貫性と意味のある解釈をいかに克服できるかを説明する。
論文 参考訳(メタデータ) (2022-10-09T23:02:42Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Self-Supervised Representation Learning on Neural Network Weights for
Model Characteristic Prediction [1.9659095632676094]
自己監視学習(SSL)は有用かつ情報保存的な表現を学ぶことが示されている。
ニューラルネットワーク(NN)の人口重みのニューラルネットワーク表現をSSLで学習することを提案する。
実験により,本領域における自己教師型表現学習は,様々なNNモデル特性を回復できることが示された。
論文 参考訳(メタデータ) (2021-10-28T16:48:15Z) - Characterizing Learning Dynamics of Deep Neural Networks via Complex
Networks [1.0869257688521987]
複素ネットワーク理論(CNT)は、ディープニューラルネットワーク(DNN)を重み付きグラフとして表現し、それらを動的システムとして研究する。
ノード/ニューロンとレイヤ、すなわちNodes StrengthとLayers Fluctuationのメトリクスを紹介します。
本フレームワークは,学習力学のトレンドを抽出し,高精度ネットワークから低次ネットワークを分離する。
論文 参考訳(メタデータ) (2021-10-06T10:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。