論文の概要: The geometry of hidden representations of large transformer models
- arxiv url: http://arxiv.org/abs/2302.00294v2
- Date: Mon, 30 Oct 2023 16:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:08:27.628817
- Title: The geometry of hidden representations of large transformer models
- Title(参考訳): 大規模変圧器モデルの隠れ表現の幾何学
- Authors: Lucrezia Valeriani, Diego Doimo, Francesca Cuturello, Alessandro Laio,
Alessio Ansuini, Alberto Cazzaniga
- Abstract要約: 大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
- 参考スコア(独自算出の注目度): 43.16765170255552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformers are powerful architectures used for self-supervised data
analysis across various data types, including protein sequences, images, and
text. In these models, the semantic structure of the dataset emerges from a
sequence of transformations between one representation and the next. We
characterize the geometric and statistical properties of these representations
and how they change as we move through the layers. By analyzing the intrinsic
dimension (ID) and neighbor composition, we find that the representations
evolve similarly in transformers trained on protein language tasks and image
reconstruction tasks. In the first layers, the data manifold expands, becoming
high-dimensional, and then contracts significantly in the intermediate layers.
In the last part of the model, the ID remains approximately constant or forms a
second shallow peak. We show that the semantic information of the dataset is
better expressed at the end of the first peak, and this phenomenon can be
observed across many models trained on diverse datasets. Based on our findings,
we point out an explicit strategy to identify, without supervision, the layers
that maximize semantic content: representations at intermediate layers
corresponding to a relative minimum of the ID profile are more suitable for
downstream learning tasks.
- Abstract(参考訳): 大きなトランスは、タンパク質配列、画像、テキストなど、さまざまなデータタイプにわたる自己教師型データ分析に使用される強力なアーキテクチャである。
これらのモデルでは、データセットのセマンティクス構造は、ある表現と次の表現の間の変換のシーケンスから現れる。
これらの表現の幾何学的および統計的性質と、層を移動するときにどのように変化するかを特徴付ける。
内在次元(ID)と周辺組成を解析することにより、タンパク質言語タスクと画像再構成タスクで訓練されたトランスフォーマーにおいて、これらの表現が同様に進化することがわかった。
最初の層では、データ多様体は拡大し、高次元となり、次いで中間層で著しく収縮する。
モデルの最後の部分では、idはほぼ一定か、あるいは第2の浅いピークを形成する。
その結果、データセットの意味情報は最初のピークの終わりによりよく表現され、この現象は多様なデータセットで訓練された多くのモデルで観察できることがわかった。
以上より,idプロファイルの相対的最小値に対応する中間層での表現は,下流の学習タスクにより適している,意味的コンテンツの最大化を監督せずに識別する明示的な戦略を指摘した。
関連論文リスト
- On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Learning Hierarchical Features with Joint Latent Space Energy-Based
Prior [44.4434704520236]
階層表現学習における多層ジェネレータモデルの基本的問題について検討する。
実効的階層型表現学習のための多層潜在変数を用いた有意な潜在空間EMM事前モデルを提案する。
論文 参考訳(メタデータ) (2023-10-14T15:44:14Z) - Learning Structured Output Representations from Attributes using Deep
Conditional Generative Models [0.0]
本稿では,条件付き変分オートエンコーダアーキテクチャを再現し,属性を条件付き画像でトレーニングする。
毛髪の色や眼鏡などの特徴の異なる新しい顔と、異なる鳥類種のサンプルを創り出そうとする。
論文 参考訳(メタデータ) (2023-04-30T17:25:31Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。