論文の概要: A Unified Perspective on the Dynamics of Deep Transformers
- arxiv url: http://arxiv.org/abs/2501.18322v1
- Date: Thu, 30 Jan 2025 13:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:54.124965
- Title: A Unified Perspective on the Dynamics of Deep Transformers
- Title(参考訳): 深部変圧器のダイナミクスの統一的展望
- Authors: Valérie Castin, Pierre Ablin, José Antonio Carrillo, Gabriel Peyré,
- Abstract要約: 深部変圧器によるデータ異方性の進化について検討する。
我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
- 参考スコア(独自算出の注目度): 24.094975798576783
- License:
- Abstract: Transformers, which are state-of-the-art in most machine learning tasks, represent the data as sequences of vectors called tokens. This representation is then exploited by the attention function, which learns dependencies between tokens and is key to the success of Transformers. However, the iterative application of attention across layers induces complex dynamics that remain to be fully understood. To analyze these dynamics, we identify each input sequence with a probability measure and model its evolution as a Vlasov equation called Transformer PDE, whose velocity field is non-linear in the probability measure. Our first set of contributions focuses on compactly supported initial data. We show the Transformer PDE is well-posed and is the mean-field limit of an interacting particle system, thus generalizing and extending previous analysis to several variants of self-attention: multi-head attention, L2 attention, Sinkhorn attention, Sigmoid attention, and masked attention--leveraging a conditional Wasserstein framework. In a second set of contributions, we are the first to study non-compactly supported initial conditions, by focusing on Gaussian initial data. Again for different types of attention, we show that the Transformer PDE preserves the space of Gaussian measures, which allows us to analyze the Gaussian case theoretically and numerically to identify typical behaviors. This Gaussian analysis captures the evolution of data anisotropy through a deep Transformer. In particular, we highlight a clustering phenomenon that parallels previous results in the non-normalized discrete case.
- Abstract(参考訳): ほとんどの機械学習タスクで最先端のトランスフォーマーは、トークンと呼ばれるベクトルのシーケンスとしてデータを表現している。
この表現はアテンション関数によって利用され、トークン間の依存関係を学び、Transformerの成功の鍵となる。
しかし、レイヤー間の注意の反復的適用は、完全に理解され続ける複雑なダイナミクスを誘導する。
これらの力学を解析するために、各入力シーケンスを確率測度で同定し、その進化を確率測度において速度場が非線形であるトランスフォーマーPDEと呼ばれるフラソフ方程式としてモデル化する。
最初のコントリビューションは、コンパクトにサポートされた初期データに焦点を当てています。
我々は、Transformer PDE が、相互作用する粒子系の平均場限界であることを示す。これにより、以前の分析を、マルチヘッドアテンション、L2アテンション、シンクホーンアテンション、シグモイドアテンション、マスク付きアテンション、条件付きワッサースタインフレームワークなど、いくつかの種類の自己アテンションに一般化および拡張する。
第2のコントリビューションでは、ガウスの初期データに着目して、非コンパクトにサポートされた初期条件を最初に研究する。
異なる種類の注意を払っても、変換器 PDE はガウス測度の空間を保ち、ガウスのケースを理論的・数値的に解析し、典型的な振る舞いを識別できることを示す。
このガウス解析は、深い変換器を通してデータ異方性の進化を捉えている。
特に、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調する。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Are queries and keys always relevant? A case study on Transformer wave functions [0.0]
ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
論文 参考訳(メタデータ) (2024-05-29T08:32:37Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers [22.25628914395565]
深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。
我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。
実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
論文 参考訳(メタデータ) (2024-03-05T01:30:34Z) - Advective Diffusion Transformers for Topological Generalization in Graph
Learning [69.2894350228753]
グラフ拡散方程式は、様々なグラフトポロジーの存在下で、どのように外挿して一般化するかを示す。
本稿では,新たなグラフエンコーダのバックボーンであるAdvective Diffusion Transformer (ADiT)を提案する。
論文 参考訳(メタデータ) (2023-10-10T08:40:47Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - TransformerG2G: Adaptive time-stepping for learning temporal graph
embeddings using transformers [2.2120851074630177]
本研究では,不確実な定量化を伴うグラフ埋め込みモデルであるTransformerG2Gを開発し,時間的グラフの時間的ダイナミクスを学習する。
提案したTransformerG2Gモデルが従来のマルチステップ法より優れていることを示す。
注意重みを調べることで、時間的依存関係を解明し、影響力のある要素を特定し、グラフ構造内の複雑な相互作用についての洞察を得ることができる。
論文 参考訳(メタデータ) (2023-07-05T18:34:22Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - tvGP-VAE: Tensor-variate Gaussian Process Prior Variational Autoencoder [0.0]
tvGP-VAEはカーネル関数を使用して相関を明示的にモデル化することができる。
そこで本研究では,どの相関構造を潜在空間で明示的に表現するかの選択が,モデル性能に大きな影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2020-06-08T17:59:13Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。