Fugu-MT 論文翻訳(概要): When Does Feature Learning Happen? Perspective from an Analytically Solvable Model

論文の概要: When Does Feature Learning Happen? Perspective from an Analytically Solvable Model

arxiv url: http://arxiv.org/abs/2401.07085v1
Date: Sat, 13 Jan 2024 14:21:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 19:41:26.109196
Title: When Does Feature Learning Happen? Perspective from an Analytically Solvable Model
Title（参考訳）: 機能学習はいつ起こるのか? 解析可解モデルからの展望
Authors: Yizhou Xu and Liu Ziyin
Abstract要約: 有限幅で解析的に抽出可能な隠れ層モデルの同定と解法を行う。無限幅モデルと有限幅モデルの両方で特徴学習がいつ起こるかを分析する。
参考スコア（独自算出の注目度）: 0.40792653193642503
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We identify and solve a hidden-layer model that is analytically tractable at any finite width and whose limits exhibit both the kernel phase and the feature learning phase. We analyze the phase diagram of this model in all possible limits of common hyperparameters including width, layer-wise learning rates, scale of output, and scale of initialization. We apply our result to analyze how and when feature learning happens in both infinite and finite-width models. Three prototype mechanisms of feature learning are identified: (1) learning by alignment, (2) learning by disalignment, and (3) learning by rescaling. In sharp contrast, neither of these mechanisms is present when the model is in the kernel regime. This discovery explains why large initialization often leads to worse performance. Lastly, we empirically demonstrate that discoveries we made for this analytical model also appear in nonlinear networks in real tasks.
Abstract（参考訳）: 我々は,任意の有限幅で解析可能で,カーネル位相と特徴学習位相の両方を示す隠れ層モデルを特定し,解く。我々は、このモデルの位相図を、幅、層毎学習率、出力スケール、初期化のスケールなど、一般的なハイパーパラメータのあらゆる限界で解析する。本研究では,無限幅モデルと有限幅モデルの両方で特徴学習がいつ起こるかを分析する。 1)アライメントによる学習,(2)不一致による学習,(3)再スケーリングによる学習の3つの試作メカニズムが同定された。対照的に、モデルがカーネルレジーム内にある場合、これらのメカニズムは存在しません。この発見は、大規模な初期化がパフォーマンスを悪化させる理由を説明する。最後に、この解析モデルで行った発見が実際のタスクで非線形ネットワークにも現れることを実証的に示す。

関連論文リスト

Network Dynamics-Based Framework for Understanding Deep Neural Networks [11.44947569206928]
本稿では,動的システム理論のレンズを通して学習力学を解析するための理論的枠組みを提案する。ニューラルネットワークの線形性と非線形性の概念をニューロンレベルで2つの基本変換単位を導入することにより再定義する。異なる変換モードは、重みベクトルの組織、異なる情報抽出のモード、質的に異なる学習フェーズの出現において、異なる集団的挙動をもたらす。
論文参考訳（メタデータ） (2025-01-05T04:23:21Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
From Lazy to Rich: Exact Learning Dynamics in Deep Linear Networks [47.13391046553908]
人工ネットワークでは、これらのモデルの有効性はタスク固有の表現を構築する能力に依存している。以前の研究では、異なる初期化によって、表現が静的な遅延状態にあるネットワークや、表現が動的に進化するリッチ/フィーチャーな学習体制のいずれかにネットワークを配置できることが強調されていた。これらの解は、豊かな状態から遅延状態までのスペクトルにわたる表現とニューラルカーネルの進化を捉えている。
論文参考訳（メタデータ） (2024-09-22T23:19:04Z)
Dynamics of Meta-learning Representation in the Teacher-student Scenario [8.099691748821114]
教師-学生シナリオにおけるストリーミングタスクを訓練した非線形二層ニューラルネットワークのメタラーニングダイナミクスについて検討する。本稿では,メタトレーニングプロセスのマクロな挙動,共有表現の形成,新しいタスクにおけるモデルの一般化能力を特徴付ける。
論文参考訳（メタデータ） (2024-08-22T16:59:32Z)
Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective [26.479602180023125]
LCSM(Linear Complexity Sequence Model)は、線形複雑性を伴う様々なシーケンスモデリング手法を単位とする。これらのモデルのモデリングプロセスは、拡張、Oscillation、Shrinkの3つの異なるステージに区分する。異なるステージ設定が言語モデリングおよび検索タスクに与える影響を分析する実験を行う。
論文参考訳（メタデータ） (2024-05-27T17:38:55Z)
Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文参考訳（メタデータ） (2024-03-15T16:51:24Z)
Mechanistic Neural Networks for Scientific Machine Learning [58.99592521721158]
我々は、科学における機械学習応用のためのニューラルネットワーク設計であるメカニスティックニューラルネットワークを提案する。新しいメカニスティックブロックを標準アーキテクチャに組み込んで、微分方程式を表現として明示的に学習する。我々のアプローチの中心は、線形プログラムを解くために線形ODEを解く技術に着想を得た、新しい線形計画解法(NeuRLP)である。
論文参考訳（メタデータ） (2024-02-20T15:23:24Z)
Exploiting the capacity of deep networks only at training stage for nonlinear black-box system identification [0.0]
本研究では,深層モデルを用いた新たなトレーニング戦略を提案する。提案する目的関数は,学習した潜伏表現間の距離ペナルティを加算した各生徒と教師モデルの目的から構成される。
論文参考訳（メタデータ） (2023-12-26T09:32:42Z)
Learning Continuous Network Emerging Dynamics from Scarce Observations via Data-Adaptive Stochastic Processes [11.494631894700253]
我々は、データ適応型ネットワークダイナミクスによって制御される新しいプロセスのクラスであるODE Processs for Network Dynamics (NDP4ND)を紹介する。提案手法はデータと計算効率に優れており,未確認のネットワークに適応できることを示す。
論文参考訳（メタデータ） (2023-10-25T08:44:05Z)
Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks [44.31729147722701]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文参考訳（メタデータ） (2023-05-11T17:19:30Z)
On the Stepwise Nature of Self-Supervised Learning [0.0]
本稿では, 自己教師あり学習法を組み込んだ共同学習の学習過程について, 簡単な図面を提示する。これらの手法は, 離散的, 分離されたステップの列において, 1次元の高次元埋め込みを同時に学習する。我々の理論は、カーネル回帰を教師付き学習のモデルと考えることができるように、カーネルPCAは自己教師付き学習の有用なモデルとして機能する可能性があることを示唆している。
論文参考訳（メタデータ） (2023-03-27T17:59:20Z)
A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文参考訳（メタデータ） (2022-10-28T17:26:27Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
Understanding the Role of Nonlinearity in Training Dynamics of Contrastive Learning [37.27098255569438]
本研究では,1層および2層非線形ネットワーク上でのコントラスト学習(CL)の学習力学における非線形性の役割について検討する。非線形性の存在は1層設定においても多くの局所最適性をもたらすことを示す。グローバルレベルパターンの観点から識別可能な局所パターンを優先的に学習する。
論文参考訳（メタデータ） (2022-06-02T23:52:35Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。 2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。 3つの大規模データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2021-08-10T09:25:07Z)
A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文参考訳（メタデータ） (2021-04-29T14:31:09Z)
Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文参考訳（メタデータ） (2020-07-15T06:04:35Z)
Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文参考訳（メタデータ） (2020-06-09T17:18:34Z)
The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文参考訳（メタデータ） (2020-03-04T17:52:48Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。