論文の概要: When Representations Align: Universality in Representation Learning Dynamics
- arxiv url: http://arxiv.org/abs/2402.09142v2
- Date: Fri, 5 Jul 2024 09:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:53:32.936558
- Title: When Representations Align: Universality in Representation Learning Dynamics
- Title(参考訳): 表現のアライメント:表現学習のダイナミクスにおける普遍性
- Authors: Loek van Rossem, Andrew M. Saxe,
- Abstract要約: 我々は、入力から隠れ表現への符号化マップと、表現から出力への復号マップが任意の滑らかな関数であるという仮定の下で、表現学習の効果的な理論を導出する。
実験により,活性化関数とアーキテクチャの異なる深層ネットワークにおける表現学習力学の側面を効果的に記述することを示した。
- 参考スコア(独自算出の注目度): 8.188549368578704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks come in many sizes and architectures. The choice of architecture, in conjunction with the dataset and learning algorithm, is commonly understood to affect the learned neural representations. Yet, recent results have shown that different architectures learn representations with striking qualitative similarities. Here we derive an effective theory of representation learning under the assumption that the encoding map from input to hidden representation and the decoding map from representation to output are arbitrary smooth functions. This theory schematizes representation learning dynamics in the regime of complex, large architectures, where hidden representations are not strongly constrained by the parametrization. We show through experiments that the effective theory describes aspects of representation learning dynamics across a range of deep networks with different activation functions and architectures, and exhibits phenomena similar to the "rich" and "lazy" regime. While many network behaviors depend quantitatively on architecture, our findings point to certain behaviors that are widely conserved once models are sufficiently flexible.
- Abstract(参考訳): ディープニューラルネットワークには、さまざまなサイズとアーキテクチャがある。
アーキテクチャの選択は、データセットと学習アルゴリズムと共に、学習した神経表現に影響を与えると一般的に理解されている。
しかし、最近の研究では、異なるアーキテクチャが質的な類似性を示す表現を学習していることが示されている。
ここでは、入力から隠れ表現への符号化写像と、表現から出力への復号写像が任意の滑らかな関数であるという仮定の下で、表現学習の効果的な理論を導出する。
この理論は、隠れた表現がパラメトリゼーションによって強く制約されない複雑な大規模アーキテクチャの体系における表現学習力学をスキーマ化する。
実験を通して,活性化関数とアーキテクチャの異なる深層ネットワークをまたいだ表現学習のダイナミクスの側面を効果的に記述し,豊かな状態と怠慢な状態に類似した現象を示す。
多くのネットワーク動作はアーキテクチャに定量的に依存するが、モデルが十分に柔軟であれば広く保存される特定の挙動を指摘する。
関連論文リスト
- From Lazy to Rich: Exact Learning Dynamics in Deep Linear Networks [47.13391046553908]
人工ネットワークでは、これらのモデルの有効性はタスク固有の表現を構築する能力に依存している。
以前の研究では、異なる初期化によって、表現が静的な遅延状態にあるネットワークや、表現が動的に進化するリッチ/フィーチャーな学習体制のいずれかにネットワークを配置できることが強調されていた。
これらの解は、豊かな状態から遅延状態までのスペクトルにわたる表現とニューラルカーネルの進化を捉えている。
論文 参考訳(メタデータ) (2024-09-22T23:19:04Z) - Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Learned feature representations are biased by complexity, learning order, position, and more [4.529707672004383]
我々は表現と計算の間の驚くべき解離を探求する。
さまざまなディープラーニングアーキテクチャをトレーニングして、入力に関する複数の抽象的な特徴を計算します。
学習した特徴表現は、他の特徴よりも強い特徴を表現するために体系的に偏っていることが分かりました。
論文 参考訳(メタデータ) (2024-05-09T15:34:15Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Weisfeiler and Leman Go Relational [4.29881872550313]
本稿では,よく知られたGCNおよびコンポジションGCNアーキテクチャの表現力の限界について検討する。
上記の2つのアーキテクチャの制限を確実に克服する$k$-RNアーキテクチャを導入します。
論文 参考訳(メタデータ) (2022-11-30T15:56:46Z) - Complexity of Representations in Deep Learning [2.0219767626075438]
データ複雑性の観点からクラスを分離する際の学習表現の有効性を分析する。
データ複雑性がネットワークを通じてどのように進化するか、トレーニング中にどのように変化するのか、そして、ネットワーク設計とトレーニングサンプルの可用性によってどのように影響を受けるのかを示す。
論文 参考訳(メタデータ) (2022-09-01T15:20:21Z) - The Neural Race Reduction: Dynamics of Abstraction in Gated Networks [12.130628846129973]
本稿では,情報フローの経路が学習力学に与える影響をスキーマ化するGated Deep Linear Networkフレームワークを紹介する。
正確な還元と、特定の場合において、学習のダイナミクスに対する正確な解が導出されます。
我々の研究は、ニューラルネットワークと学習に関する一般的な仮説を生み出し、より複雑なアーキテクチャの設計を理解するための数学的アプローチを提供する。
論文 参考訳(メタデータ) (2022-07-21T12:01:03Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。