Fugu-MT 論文翻訳(概要): Infinite Limits of Multi-head Transformer Dynamics

論文の概要: Infinite Limits of Multi-head Transformer Dynamics

arxiv url: http://arxiv.org/abs/2405.15712v2
Date: Fri, 04 Oct 2024 15:29:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 01:43:37.247646
Title: Infinite Limits of Multi-head Transformer Dynamics
Title（参考訳）: マルチヘッドトランスダイナミクスの無限限界
Authors: Blake Bordelon, Hamza Tahir Chaudhry, Cengiz Pehlevan,
Abstract要約: 特徴学習体制における変圧器モデルの訓練力学の様々なスケーリング限界を解析する。パラメータ化の集合は、適切に定義された無限の幅と深さの制限を許容し、トレーニングを通して注意層を更新することができる。
参考スコア（独自算出の注目度）: 35.95321041944522
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we analyze various scaling limits of the training dynamics of transformer models in the feature learning regime. We identify the set of parameterizations that admit well-defined infinite width and depth limits, allowing the attention layers to update throughout training--a relevant notion of feature learning in these models. We then use tools from dynamical mean field theory (DMFT) to analyze various infinite limits (infinite key/query dimension, infinite heads, and infinite depth) which have different statistical descriptions depending on which infinite limit is taken and how attention layers are scaled. We provide numerical evidence of convergence to the limits and discuss how the parameterization qualitatively influences learned features.
Abstract（参考訳）: 本研究では,特徴学習体制における変圧器モデルのトレーニング力学の様々なスケーリング限界を解析する。パラメータ化の集合は、適切に定義された無限の幅と深さの制限を許容し、トレーニングを通して注意層を更新することができる。次に、動的平均場理論(DMFT)のツールを用いて、無限の極限がどの極限を取るか、どのように注意層がスケールするかによって異なる統計的記述を持つ様々な無限の極限(無限の鍵/クエリ次元、無限のヘッド、無限の深さ)を解析する。限界への収束の数値的な証拠を提供し、パラメータ化が学習した特徴にどのように影響するかを議論する。

関連論文リスト

Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-20T13:53:58Z)
Learning High-dimensional Ionic Model Dynamics Using Fourier Neural Operators [0.0]
フーリエニューラル演算子が高次元のイオン系における状態変数の進化を学習できるかどうかを検討する。本手法の有効性は,次元が増大する3つのよく確立されたイオンモデルの力学を正確に学習することによって実証する。制約のあるアーキテクチャも制約のないアーキテクチャも、考慮されたすべてのモデルにまたがる精度で同等の結果を得る。
論文参考訳（メタデータ） (2025-05-20T07:37:03Z)
Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文参考訳（メタデータ） (2025-03-03T09:12:14Z)
Analyzing limits for in-context learning [2.1178416840822027]
インコンテキスト学習(ICL)は、基本的な振る舞いを明らかにするための制御された設定として関数正規化タスクに焦点を当て、スクラッチから訓練されたトランスフォーマーモデルである。我々は、変圧器モデルが正規化(非線型)関数の未確認クラスを一般化し近似することができることを実証的に示すが、それらは特定の値を超える一般化はできない。
論文参考訳（メタデータ） (2025-02-05T11:03:36Z)
Numerical Approximation Capacity of Neural Networks with Bounded Parameters: Do Limits Exist, and How Can They Be Measured? [4.878983382452911]
普遍近似は理論的には実現可能であるが,現実的な数値シナリオでは,Deep Neural Networks (DNN) は有限次元ベクトル空間でしか近似できない。ネットワークの系列の近似能力限界を定量化するために、textit$epsilon$ outer measure と textitNumerical Span Dimension (NSdim) の概念を導入する。
論文参考訳（メタデータ） (2024-09-25T07:43:48Z)
Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文参考訳（メタデータ） (2024-02-27T12:28:01Z)
Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-11-28T11:23:34Z)
Neural network analysis of neutron and X-ray reflectivity data: Incorporating prior knowledge for tackling the phase problem [141.5628276096321]
本稿では,事前知識を利用して,より大規模なパラメータ空間上でのトレーニングプロセスを標準化する手法を提案する。ボックスモデルパラメータ化を用いた多層構造を含む様々なシナリオにおいて,本手法の有効性を示す。従来の手法とは対照的に,逆問題の複雑性を増大させると,我々の手法は好適にスケールする。
論文参考訳（メタデータ） (2023-06-28T11:15:53Z)
Non-Separable Multi-Dimensional Network Flows for Visual Computing [62.50191141358778]
本研究では,非分離型多次元ネットワークフローに対する新しい定式化法を提案する。フローは次元ごとに定義されるので、最大化フローは自動的に最適な特徴次元を選択する。概念実証として,マルチオブジェクト追跡問題にフォーマリズムを適用し,ノイズに対するロバスト性の観点からMOT16ベンチマークのスカラー定式化よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-15T13:21:44Z)
A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文参考訳（メタデータ） (2022-10-28T17:26:27Z)
Training Integrable Parameterizations of Deep Neural Networks in the Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。 2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文参考訳（メタデータ） (2021-10-29T07:53:35Z)
Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning Dynamics [26.485269202381932]
トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。このような対称性は勾配やヘッシアンに厳密な幾何学的制約を課し、関連する保存則を導く。 SGDが有限学習速度で行った数値軌道をよりよく近似する差分方程式である修正勾配流の導出に有限差分法からツールを適用します。
論文参考訳（メタデータ） (2020-12-08T20:33:30Z)
Dynamically Stable Infinite-Width Limits of Neural Classifiers [6.09170287691728]
本稿では,ニューラルネットワークの限界挙動が,ネットワーク幅を持つハイパーパラメータのスケーリングにどのように依存するかを検討するための一般的な枠組みを提案する。既存の MF と NTK の極限モデルと1つの新しい極限モデルは、有限幅モデルによって示されるほとんどの特性を満たす。
論文参考訳（メタデータ） (2020-06-11T16:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。