Fugu-MT 論文翻訳(概要): The geometry of hidden representations of large transformer models

論文の概要: The geometry of hidden representations of large transformer models

arxiv url: http://arxiv.org/abs/2302.00294v2
Date: Mon, 30 Oct 2023 16:11:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 04:08:27.628817
Title: The geometry of hidden representations of large transformer models
Title（参考訳）: 大規模変圧器モデルの隠れ表現の幾何学
Authors: Lucrezia Valeriani, Diego Doimo, Francesca Cuturello, Alessandro Laio, Alessio Ansuini, Alberto Cazzaniga
Abstract要約: 大規模トランスは、さまざまなデータタイプをまたいだ自己教師型データ分析に使用される強力なアーキテクチャである。データセットのセマンティック構造は、ある表現と次の表現の間の変換のシーケンスから現れることを示す。本研究は,データセットのセマンティクス情報が第1ピークの終わりによりよく表現されることを示し,この現象を多種多様なデータセットで訓練された多くのモデルで観測できることを示した。
参考スコア（独自算出の注目度）: 43.16765170255552
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large transformers are powerful architectures used for self-supervised data analysis across various data types, including protein sequences, images, and text. In these models, the semantic structure of the dataset emerges from a sequence of transformations between one representation and the next. We characterize the geometric and statistical properties of these representations and how they change as we move through the layers. By analyzing the intrinsic dimension (ID) and neighbor composition, we find that the representations evolve similarly in transformers trained on protein language tasks and image reconstruction tasks. In the first layers, the data manifold expands, becoming high-dimensional, and then contracts significantly in the intermediate layers. In the last part of the model, the ID remains approximately constant or forms a second shallow peak. We show that the semantic information of the dataset is better expressed at the end of the first peak, and this phenomenon can be observed across many models trained on diverse datasets. Based on our findings, we point out an explicit strategy to identify, without supervision, the layers that maximize semantic content: representations at intermediate layers corresponding to a relative minimum of the ID profile are more suitable for downstream learning tasks.
Abstract（参考訳）: 大きなトランスは、タンパク質配列、画像、テキストなど、さまざまなデータタイプにわたる自己教師型データ分析に使用される強力なアーキテクチャである。これらのモデルでは、データセットのセマンティクス構造は、ある表現と次の表現の間の変換のシーケンスから現れる。これらの表現の幾何学的および統計的性質と、層を移動するときにどのように変化するかを特徴付ける。内在次元(ID)と周辺組成を解析することにより、タンパク質言語タスクと画像再構成タスクで訓練されたトランスフォーマーにおいて、これらの表現が同様に進化することがわかった。最初の層では、データ多様体は拡大し、高次元となり、次いで中間層で著しく収縮する。モデルの最後の部分では、idはほぼ一定か、あるいは第2の浅いピークを形成する。その結果、データセットの意味情報は最初のピークの終わりによりよく表現され、この現象は多様なデータセットで訓練された多くのモデルで観察できることがわかった。以上より,idプロファイルの相対的最小値に対応する中間層での表現は,下流の学習タスクにより適している,意味的コンテンツの最大化を監督せずに識別する明示的な戦略を指摘した。

関連論文リスト

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
Statistical signatures of abstraction in deep neural networks [0.0]
我々は、ベンチマークデータセットに基づいてトレーニングされたDeep Belief Network(DBN)において、抽象表現がどのように現れるかを研究する。表現は最大関連性の原理によって決定される普遍モデルに近づくことを示す。また、プラスチック度は脳のそれと同じような深さで増加することも示しています。
論文参考訳（メタデータ） (2024-07-01T14:13:11Z)
On Layer-wise Representation Similarity: Application for Multi-Exit Models with a Single Classifier [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。本稿では,内部表現の類似性を高めるための協調学習手法を提案する。
論文参考訳（メタデータ） (2024-06-20T16:41:09Z)
On Characterizing the Evolution of Embedding Space of Neural Networks using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文参考訳（メタデータ） (2023-11-08T10:45:12Z)
Learning Structured Output Representations from Attributes using Deep Conditional Generative Models [0.0]
本稿では,条件付き変分オートエンコーダアーキテクチャを再現し,属性を条件付き画像でトレーニングする。毛髪の色や眼鏡などの特徴の異なる新しい顔と、異なる鳥類種のサンプルを創り出そうとする。
論文参考訳（メタデータ） (2023-04-30T17:25:31Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Two-Stream Graph Convolutional Network for Intra-oral Scanner Image Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。 TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文参考訳（メタデータ） (2022-04-19T10:41:09Z)
Surface Vision Transformers: Attention-Based Modelling applied to Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文参考訳（メタデータ） (2022-03-30T15:56:11Z)
Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文参考訳（メタデータ） (2021-05-31T16:20:03Z)
Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。 PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文参考訳（メタデータ） (2020-07-07T03:36:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。