論文の概要: The geometry of hidden representations of large transformer models
- arxiv url: http://arxiv.org/abs/2302.00294v1
- Date: Wed, 1 Feb 2023 07:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:27:59.267966
- Title: The geometry of hidden representations of large transformer models
- Title(参考訳): 大規模変圧器モデルの隠れ表現の幾何学
- Authors: Lucrezia Valeriani, Diego Doimo, Francesca Cuturello, Alessandro Laio,
Alessio Ansuini, Alberto Cazzaniga
- Abstract要約: 本研究では,タンパク質言語タスクと画像再構成タスクを訓練した大規模トランスフォーマーにおける表現の進化について検討する。
データセットのセマンティックな複雑さは、最初のピークの終わりに現れます。
この現象は、多様なデータセットで訓練された多くのモデルで観測できる。
- 参考スコア(独自算出の注目度): 58.74143210792984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformers are powerful architectures for self-supervised analysis of
data of various nature, ranging from protein sequences to text to images. In
these models, the data representation in the hidden layers live in the same
space, and the semantic structure of the dataset emerges by a sequence of
functionally identical transformations between one representation and the next.
We here characterize the geometric and statistical properties of these
representations, focusing on the evolution of such proprieties across the
layers. By analyzing geometric properties such as the intrinsic dimension (ID)
and the neighbor composition we find that the representations evolve in a
strikingly similar manner in transformers trained on protein language tasks and
image reconstruction tasks. In the first layers, the data manifold expands,
becoming high-dimensional, and then it contracts significantly in the
intermediate layers. In the last part of the model, the ID remains
approximately constant or forms a second shallow peak. We show that the
semantic complexity of the dataset emerges at the end of the first peak. This
phenomenon can be observed across many models trained on diverse datasets.
Based on these observations, we suggest using the ID profile as an unsupervised
proxy to identify the layers which are more suitable for downstream learning
tasks.
- Abstract(参考訳): 大きなトランスフォーマーは、タンパク質配列からテキスト、画像まで、様々な性質のデータの自己教師あり分析のための強力なアーキテクチャである。
これらのモデルでは、隠れた層内のデータ表現は同じ空間に存在し、データセットのセマンティック構造は、1つの表現と次の表現の間で機能的に同一な変換のシーケンスによって現れる。
ここでは、これらの表現の幾何学的および統計的性質を特徴付け、層をまたいだそのようなプロパティの進化に焦点を当てる。
内在次元(ID)や周辺組成などの幾何学的性質を解析することにより、タンパク質言語タスクや画像再構成タスクで訓練されたトランスフォーマーにおいて、表現が著しく類似した方法で進化することが分かる。
最初の層では、データ多様体は拡大し、高次元となり、その後中間層で大幅に収縮する。
モデルの最後の部分では、idはほぼ一定か、あるいは第2の浅いピークを形成する。
データセットの意味的複雑性は、最初のピークの終わりに現れる。
この現象は、多様なデータセットで訓練された多くのモデルで観測できる。
これらの観測に基づいて、下流学習タスクに適したレイヤを特定するために、IDプロファイルを教師なしプロキシとして使用することを提案する。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Statistical signatures of abstraction in deep neural networks [0.0]
我々は、ベンチマークデータセットに基づいてトレーニングされたDeep Belief Network(DBN)において、抽象表現がどのように現れるかを研究する。
表現は最大関連性の原理によって決定される普遍モデルに近づくことを示す。
また、プラスチック度は脳のそれと同じような深さで増加することも示しています。
論文 参考訳(メタデータ) (2024-07-01T14:13:11Z) - On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Learning Structured Output Representations from Attributes using Deep
Conditional Generative Models [0.0]
本稿では,条件付き変分オートエンコーダアーキテクチャを再現し,属性を条件付き画像でトレーニングする。
毛髪の色や眼鏡などの特徴の異なる新しい顔と、異なる鳥類種のサンプルを創り出そうとする。
論文 参考訳(メタデータ) (2023-04-30T17:25:31Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。