論文の概要: The Shape of Learning: Anisotropy and Intrinsic Dimensions in
Transformer-Based Models
- arxiv url: http://arxiv.org/abs/2311.05928v2
- Date: Mon, 26 Feb 2024 06:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:57:36.831897
- Title: The Shape of Learning: Anisotropy and Intrinsic Dimensions in
Transformer-Based Models
- Title(参考訳): 学習の形状:変圧器モデルにおける異方性と内在次元
- Authors: Anton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Ivan
Oseledets, Denis Dimitrov, Andrey Kuznetsov
- Abstract要約: 本研究では, トランスアーキテクチャの異方性力学と内在次元について検討する。
その結果, トランスデコーダの異方性プロファイルは, 中層で最も高い異方性濃度のベル形状の曲線を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 8.830629486129062
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this study, we present an investigation into the anisotropy dynamics and
intrinsic dimension of embeddings in transformer architectures, focusing on the
dichotomy between encoders and decoders. Our findings reveal that the
anisotropy profile in transformer decoders exhibits a distinct bell-shaped
curve, with the highest anisotropy concentrations in the middle layers. This
pattern diverges from the more uniformly distributed anisotropy observed in
encoders. In addition, we found that the intrinsic dimension of embeddings
increases in the initial phases of training, indicating an expansion into
higher-dimensional space. Which is then followed by a compression phase towards
the end of training with dimensionality decrease, suggesting a refinement into
more compact representations. Our results provide fresh insights to the
understanding of encoders and decoders embedding properties.
- Abstract(参考訳): 本研究では,エンコーダとデコーダの分離に着目し,トランスフォーマアーキテクチャにおける組込みの異方性ダイナミクスと固有次元について検討する。
その結果,変圧器デコーダの異方性プロファイルはベル形状曲線を示し,中間層で最も異方性が高いことがわかった。
このパターンはエンコーダで観測されるより均一に分布する異方性から分岐する。
さらに, 組込みの固有次元はトレーニングの初期段階において増加し, 高次元空間への展開を示すことがわかった。
その後、次元が減少する訓練の終わりに圧縮フェーズが続き、よりコンパクトな表現への洗練が示唆される。
その結果,エンコーダとデコーダの埋め込み特性の理解に新たな知見が得られた。
関連論文リスト
- Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model [0.0]
深部ニューラルネットワークの重み,ヘッセン,勾配,特徴ベクトルの低次元構造について検討した。
一般化された制約のない特徴モデルでそれらを統一する方法を示す。
論文 参考訳(メタデータ) (2024-04-09T08:17:32Z) - Laplacian-guided Entropy Model in Neural Codec with Blur-dissipated Synthesis [10.428185253933004]
ガウスデコーダをデコーダ側の非等方拡散モデルに置き換える。
我々のフレームワークは、確率分布潜在表現を正確にモデル化する新しいエントロピーモデルを備えている。
実験により,我々のフレームワークは,最先端な生成エントロピーベースのコーデックに比べて知覚品質がよいことを示した。
論文 参考訳(メタデータ) (2024-03-24T18:33:16Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Autoencoders for discovering manifold dimension and coordinates in data
from complex dynamical systems [0.0]
Autoencoder frameworkは暗黙の正則化と内部線形層と$L$正則化(重崩壊)を組み合わせる
このフレームワークは、状態空間モデリングや予測の応用のために自然に拡張できることを示す。
論文 参考訳(メタデータ) (2023-05-01T21:14:47Z) - Neural Wavelet-domain Diffusion for 3D Shape Generation, Inversion, and
Manipulation [54.09274684734721]
本稿では,ウェーブレット領域における連続的な暗黙表現の直接生成モデルを用いて,3次元形状の生成,反転,操作を行う新しい手法を提案する。
具体的には、1対の粗い係数と細部係数の体積を持つコンパクトなウェーブレット表現を提案し、トランケートされた符号付き距離関数とマルチスケールの生体直交ウェーブレットを介して3次元形状を暗黙的に表現する。
エンコーダネットワークを共同でトレーニングすることで,形状を反転させる潜在空間を学習することができる。
論文 参考訳(メタデータ) (2023-02-01T02:47:53Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。