Fugu-MT 論文翻訳(概要): Make Haste Slowly: A Theory of Emergent Structured Mixed Selectivity in Feature Learning ReLU Networks

論文の概要: Make Haste Slowly: A Theory of Emergent Structured Mixed Selectivity in Feature Learning ReLU Networks

arxiv url: http://arxiv.org/abs/2503.06181v1
Date: Sat, 08 Mar 2025 11:47:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.228646
Title: Make Haste Slowly: A Theory of Emergent Structured Mixed Selectivity in Feature Learning ReLU Networks
Title（参考訳）: Make Haste Slowly: An Theory of Emergent Structured Mixed Selectivity in Feature Learning ReLU Networks
Authors: Devon Jarvis, Richard Klein, Benjamin Rosman, Andrew M. Saxe,
Abstract要約: 有限ReLUネットワークにおける特徴学習理論への一歩を踏み出した。ノード再利用と学習速度のバイアスにより,構造化された混合選択潜在表現が出現することを示す。
参考スコア（独自算出の注目度）: 16.83151955540625
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In spite of finite dimension ReLU neural networks being a consistent factor behind recent deep learning successes, a theory of feature learning in these models remains elusive. Currently, insightful theories still rely on assumptions including the linearity of the network computations, unstructured input data and architectural constraints such as infinite width or a single hidden layer. To begin to address this gap we establish an equivalence between ReLU networks and Gated Deep Linear Networks, and use their greater tractability to derive dynamics of learning. We then consider multiple variants of a core task reminiscent of multi-task learning or contextual control which requires both feature learning and nonlinearity. We make explicit that, for these tasks, the ReLU networks possess an inductive bias towards latent representations which are not strictly modular or disentangled but are still highly structured and reusable between contexts. This effect is amplified with the addition of more contexts and hidden layers. Thus, we take a step towards a theory of feature learning in finite ReLU networks and shed light on how structured mixed-selective latent representations can emerge due to a bias for node-reuse and learning speed.
Abstract（参考訳）: 有限次元のReLUニューラルネットワークは近年のディープラーニングの成功の背後にある一貫した要因であるにもかかわらず、これらのモデルにおける特徴学習の理論はいまだ解明されていない。現在、洞察に富んだ理論は、ネットワーク計算の線形性、構造化されていない入力データ、無限幅や単一の隠蔽層のようなアーキテクチャ上の制約などの仮定に依存している。このギャップに対処するために、私たちはReLUネットワークとGated Deep Linear Networksの等価性を確立し、学習のダイナミクスを導出するために、より大きなトラクタビリティを使用します。次に、特徴学習と非線形性の両方を必要とするマルチタスク学習や文脈制御を連想させるコアタスクの複数の変種を検討する。これらのタスクに対して、ReLUネットワークは厳密なモジュラーや非絡み合いではなく、コンテキスト間で高度に構造化され再利用可能な潜在表現に対する帰納バイアスを有することを明示する。この効果は、より多くのコンテキストと隠れたレイヤを追加することで増幅されます。そこで我々は,有限ReLUネットワークにおける特徴学習理論への一歩を踏み出し,ノード再利用と学習速度の偏りから,構造化された混合選択潜在表現がどのように現れるかを明らかにした。

関連論文リスト

Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。ネットワークが強力なデータ依存機能を取得することを示す。驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文参考訳（メタデータ） (2024-06-24T14:50:05Z)
Riemannian Residual Neural Networks [58.925132597945634]
残余ニューラルネットワーク(ResNet)の拡張方法を示す。 ResNetは、機械学習において、有益な学習特性、優れた経験的結果、そして様々なニューラルネットワークを構築する際に容易に組み込める性質のために、ユビキタスになった。
論文参考訳（メタデータ） (2023-10-16T02:12:32Z)
Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文参考訳（メタデータ） (2022-10-31T16:21:56Z)
Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。これは機械学習の幅広い領域にまたがる重要な構造条件の例である。しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文参考訳（メタデータ） (2022-06-13T12:03:32Z)
Clustering-Based Interpretation of Deep ReLU Network [17.234442722611803]
我々はReLU関数の非線形挙動が自然なクラスタリングを引き起こすことを認識している。本稿では,完全連結フィードフォワードReLUニューラルネットワークの解釈可能性を高める手法を提案する。
論文参考訳（メタデータ） (2021-10-13T09:24:11Z)
A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文参考訳（メタデータ） (2021-04-29T14:31:09Z)
Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文参考訳（メタデータ） (2020-09-01T09:07:25Z)
Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文参考訳（メタデータ） (2020-08-19T04:53:31Z)
The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T17:42:49Z)
An analytic theory of shallow networks dynamics for hinge loss classification [14.323962459195771]
我々は、単純なタイプのニューラルネットワーク(分類タスクを実行するために訓練された単一の隠れ層)のトレーニングダイナミクスについて研究する。我々はこの理論を線形分離可能なデータセットと線形ヒンジ損失のプロトタイプケースに特化する。これにより、トレーニングダイナミクスの減速、リッチラーニングと遅延ラーニングのクロスオーバー、オーバーフィッティングといった、現代のネットワークに現れるいくつかの現象に対処することが可能になります。
論文参考訳（メタデータ） (2020-06-19T16:25:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。