論文の概要: The geometry of hidden representations of large transformer models
- arxiv url: http://arxiv.org/abs/2302.00294v2
- Date: Mon, 30 Oct 2023 16:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:08:27.628817
- Title: The geometry of hidden representations of large transformer models
- Title(参考訳): 大規模変圧器モデルの隠れ表現の幾何学
- Authors: Lucrezia Valeriani, Diego Doimo, Francesca Cuturello, Alessandro Laio,
Alessio Ansuini, Alberto Cazzaniga
- Abstract要約: 大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。
データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。
本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
- 参考スコア(独自算出の注目度): 43.16765170255552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformers are powerful architectures used for self-supervised data
analysis across various data types, including protein sequences, images, and
text. In these models, the semantic structure of the dataset emerges from a
sequence of transformations between one representation and the next. We
characterize the geometric and statistical properties of these representations
and how they change as we move through the layers. By analyzing the intrinsic
dimension (ID) and neighbor composition, we find that the representations
evolve similarly in transformers trained on protein language tasks and image
reconstruction tasks. In the first layers, the data manifold expands, becoming
high-dimensional, and then contracts significantly in the intermediate layers.
In the last part of the model, the ID remains approximately constant or forms a
second shallow peak. We show that the semantic information of the dataset is
better expressed at the end of the first peak, and this phenomenon can be
observed across many models trained on diverse datasets. Based on our findings,
we point out an explicit strategy to identify, without supervision, the layers
that maximize semantic content: representations at intermediate layers
corresponding to a relative minimum of the ID profile are more suitable for
downstream learning tasks.
- Abstract(参考訳): 大きなトランスは、タンパク質配列、画像、テキストなど、さまざまなデータタイプにわたる自己教師型データ分析に使用される強力なアーキテクチャである。
これらのモデルでは、データセットのセマンティクス構造は、ある表現と次の表現の間の変換のシーケンスから現れる。
これらの表現の幾何学的および統計的性質と、層を移動するときにどのように変化するかを特徴付ける。
内在次元(ID)と周辺組成を解析することにより、タンパク質言語タスクと画像再構成タスクで訓練されたトランスフォーマーにおいて、これらの表現が同様に進化することがわかった。
最初の層では、データ多様体は拡大し、高次元となり、次いで中間層で著しく収縮する。
モデルの最後の部分では、idはほぼ一定か、あるいは第2の浅いピークを形成する。
その結果、データセットの意味情報は最初のピークの終わりによりよく表現され、この現象は多様なデータセットで訓練された多くのモデルで観察できることがわかった。
以上より,idプロファイルの相対的最小値に対応する中間層での表現は,下流の学習タスクにより適している,意味的コンテンツの最大化を監督せずに識別する明示的な戦略を指摘した。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Statistical signatures of abstraction in deep neural networks [0.0]
我々は、ベンチマークデータセットに基づいてトレーニングされたDeep Belief Network(DBN)において、抽象表現がどのように現れるかを研究する。
表現は最大関連性の原理によって決定される普遍モデルに近づくことを示す。
また、プラスチック度は脳のそれと同じような深さで増加することも示しています。
論文 参考訳(メタデータ) (2024-07-01T14:13:11Z) - On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Learning Structured Output Representations from Attributes using Deep
Conditional Generative Models [0.0]
本稿では,条件付き変分オートエンコーダアーキテクチャを再現し,属性を条件付き画像でトレーニングする。
毛髪の色や眼鏡などの特徴の異なる新しい顔と、異なる鳥類種のサンプルを創り出そうとする。
論文 参考訳(メタデータ) (2023-04-30T17:25:31Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。