論文の概要: Infinite Limits of Multi-head Transformer Dynamics
- arxiv url: http://arxiv.org/abs/2405.15712v2
- Date: Fri, 04 Oct 2024 15:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:31.569550
- Title: Infinite Limits of Multi-head Transformer Dynamics
- Title(参考訳): マルチヘッドトランスダイナミクスの無限限界
- Authors: Blake Bordelon, Hamza Tahir Chaudhry, Cengiz Pehlevan,
- Abstract要約: 特徴学習体制における変圧器モデルの訓練力学の様々なスケーリング限界を解析する。
パラメータ化の集合は、適切に定義された無限の幅と深さの制限を許容し、トレーニングを通して注意層を更新することができる。
- 参考スコア(独自算出の注目度): 35.95321041944522
- License:
- Abstract: In this work, we analyze various scaling limits of the training dynamics of transformer models in the feature learning regime. We identify the set of parameterizations that admit well-defined infinite width and depth limits, allowing the attention layers to update throughout training--a relevant notion of feature learning in these models. We then use tools from dynamical mean field theory (DMFT) to analyze various infinite limits (infinite key/query dimension, infinite heads, and infinite depth) which have different statistical descriptions depending on which infinite limit is taken and how attention layers are scaled. We provide numerical evidence of convergence to the limits and discuss how the parameterization qualitatively influences learned features.
- Abstract(参考訳): 本研究では,特徴学習体制における変圧器モデルのトレーニング力学の様々なスケーリング限界を解析する。
パラメータ化の集合は、適切に定義された無限の幅と深さの制限を許容し、トレーニングを通して注意層を更新することができる。
次に、動的平均場理論(DMFT)のツールを用いて、無限の極限がどの極限を取るか、どのように注意層がスケールするかによって異なる統計的記述を持つ様々な無限の極限(無限の鍵/クエリ次元、無限のヘッド、無限の深さ)を解析する。
限界への収束の数値的な証拠を提供し、パラメータ化が学習した特徴にどのように影響するかを議論する。
関連論文リスト
- Numerical Approximation Capacity of Neural Networks with Bounded Parameters: Do Limits Exist, and How Can They Be Measured? [4.878983382452911]
普遍近似は理論的には実現可能であるが,現実的な数値シナリオでは,Deep Neural Networks (DNN) は有限次元ベクトル空間でしか近似できない。
ネットワークの系列の近似能力限界を定量化するために、textit$epsilon$ outer measure と textitNumerical Span Dimension (NSdim) の概念を導入する。
論文 参考訳(メタデータ) (2024-09-25T07:43:48Z) - Why do Learning Rates Transfer? Reconciling Optimization and Scaling
Limits for Deep Learning [77.82908213345864]
学習速度伝達が$mu$Pとその深さ拡張の下では、トレーニング損失Hessianの最大の固有値がネットワークの幅と深さに大きく依存しているという事実から、経験的証拠が得られている。
ニューラル・タンジェント・カーネル(NTK)体制下では、シャープネスは異なるスケールで非常に異なるダイナミクスを示し、学習速度の伝達を妨げている。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Neural network analysis of neutron and X-ray reflectivity data:
Incorporating prior knowledge for tackling the phase problem [141.5628276096321]
本稿では,事前知識を利用して,より大規模なパラメータ空間上でのトレーニングプロセスを標準化する手法を提案する。
ボックスモデルパラメータ化を用いた多層構造を含む様々なシナリオにおいて,本手法の有効性を示す。
従来の手法とは対照的に,逆問題の複雑性を増大させると,我々の手法は好適にスケールする。
論文 参考訳(メタデータ) (2023-06-28T11:15:53Z) - Non-Separable Multi-Dimensional Network Flows for Visual Computing [62.50191141358778]
本研究では,非分離型多次元ネットワークフローに対する新しい定式化法を提案する。
フローは次元ごとに定義されるので、最大化フローは自動的に最適な特徴次元を選択する。
概念実証として,マルチオブジェクト追跡問題にフォーマリズムを適用し,ノイズに対するロバスト性の観点からMOT16ベンチマークのスカラー定式化よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-15T13:21:44Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning
Dynamics [26.485269202381932]
トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。
このような対称性は勾配やヘッシアンに厳密な幾何学的制約を課し、関連する保存則を導く。
SGDが有限学習速度で行った数値軌道をよりよく近似する差分方程式である修正勾配流の導出に有限差分法からツールを適用します。
論文 参考訳(メタデータ) (2020-12-08T20:33:30Z) - Dynamically Stable Infinite-Width Limits of Neural Classifiers [6.09170287691728]
本稿では,ニューラルネットワークの限界挙動が,ネットワーク幅を持つハイパーパラメータのスケーリングにどのように依存するかを検討するための一般的な枠組みを提案する。
既存の MF と NTK の極限モデルと1つの新しい極限モデルは、有限幅モデルによって示されるほとんどの特性を満たす。
論文 参考訳(メタデータ) (2020-06-11T16:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。