論文の概要: The geometry of hidden representations of large transformer models
- arxiv url: http://arxiv.org/abs/2302.00294v1
- Date: Wed, 1 Feb 2023 07:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:27:59.267966
- Title: The geometry of hidden representations of large transformer models
- Title(参考訳): 大規模変圧器モデルの隠れ表現の幾何学
- Authors: Lucrezia Valeriani, Diego Doimo, Francesca Cuturello, Alessandro Laio,
Alessio Ansuini, Alberto Cazzaniga
- Abstract要約: 本研究では,タンパク質言語タスクと画像再構成タスクを訓練した大規模トランスフォーマーにおける表現の進化について検討する。
データセットのセマンティックな複雑さは、最初のピークの終わりに現れます。
この現象は、多様なデータセットで訓練された多くのモデルで観測できる。
- 参考スコア(独自算出の注目度): 58.74143210792984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformers are powerful architectures for self-supervised analysis of
data of various nature, ranging from protein sequences to text to images. In
these models, the data representation in the hidden layers live in the same
space, and the semantic structure of the dataset emerges by a sequence of
functionally identical transformations between one representation and the next.
We here characterize the geometric and statistical properties of these
representations, focusing on the evolution of such proprieties across the
layers. By analyzing geometric properties such as the intrinsic dimension (ID)
and the neighbor composition we find that the representations evolve in a
strikingly similar manner in transformers trained on protein language tasks and
image reconstruction tasks. In the first layers, the data manifold expands,
becoming high-dimensional, and then it contracts significantly in the
intermediate layers. In the last part of the model, the ID remains
approximately constant or forms a second shallow peak. We show that the
semantic complexity of the dataset emerges at the end of the first peak. This
phenomenon can be observed across many models trained on diverse datasets.
Based on these observations, we suggest using the ID profile as an unsupervised
proxy to identify the layers which are more suitable for downstream learning
tasks.
- Abstract(参考訳): 大きなトランスフォーマーは、タンパク質配列からテキスト、画像まで、様々な性質のデータの自己教師あり分析のための強力なアーキテクチャである。
これらのモデルでは、隠れた層内のデータ表現は同じ空間に存在し、データセットのセマンティック構造は、1つの表現と次の表現の間で機能的に同一な変換のシーケンスによって現れる。
ここでは、これらの表現の幾何学的および統計的性質を特徴付け、層をまたいだそのようなプロパティの進化に焦点を当てる。
内在次元(ID)や周辺組成などの幾何学的性質を解析することにより、タンパク質言語タスクや画像再構成タスクで訓練されたトランスフォーマーにおいて、表現が著しく類似した方法で進化することが分かる。
最初の層では、データ多様体は拡大し、高次元となり、その後中間層で大幅に収縮する。
モデルの最後の部分では、idはほぼ一定か、あるいは第2の浅いピークを形成する。
データセットの意味的複雑性は、最初のピークの終わりに現れる。
この現象は、多様なデータセットで訓練された多くのモデルで観測できる。
これらの観測に基づいて、下流学習タスクに適したレイヤを特定するために、IDプロファイルを教師なしプロキシとして使用することを提案する。
関連論文リスト
- On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Learning Hierarchical Features with Joint Latent Space Energy-Based
Prior [44.4434704520236]
階層表現学習における多層ジェネレータモデルの基本的問題について検討する。
実効的階層型表現学習のための多層潜在変数を用いた有意な潜在空間EMM事前モデルを提案する。
論文 参考訳(メタデータ) (2023-10-14T15:44:14Z) - Learning Structured Output Representations from Attributes using Deep
Conditional Generative Models [0.0]
本稿では,条件付き変分オートエンコーダアーキテクチャを再現し,属性を条件付き画像でトレーニングする。
毛髪の色や眼鏡などの特徴の異なる新しい顔と、異なる鳥類種のサンプルを創り出そうとする。
論文 参考訳(メタデータ) (2023-04-30T17:25:31Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。