論文の概要: Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers
- arxiv url: http://arxiv.org/abs/2401.15568v1
- Date: Sun, 28 Jan 2024 04:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:39:09.414886
- Title: Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers
- Title(参考訳): 視覚トランスフォーマの埋め込み空間の興味深い同値構造
- Authors: Shaeke Salman and Md Montasir Bin Shams and Xiuwen Liu
- Abstract要約: 事前訓練された大規模な基盤モデルは、最近の人工知能の急増において中心的な役割を果たす。
それら固有の複雑さのため、これらのモデルはよく理解されていない。
解析および系統的な実験により、表現空間は大きな片方向線型部分空間からなることを示す。
- 参考スコア(独自算出の注目度): 1.7418480517632609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large foundation models play a central role in the recent surge
of artificial intelligence, resulting in fine-tuned models with remarkable
abilities when measured on benchmark datasets, standard exams, and
applications. Due to their inherent complexity, these models are not well
understood. While small adversarial inputs to such models are well known, the
structures of the representation space are not well characterized despite their
fundamental importance. In this paper, using the vision transformers as an
example due to the continuous nature of their input space, we show via analyses
and systematic experiments that the representation space consists of large
piecewise linear subspaces where there exist very different inputs sharing the
same representations, and at the same time, local normal spaces where there are
visually indistinguishable inputs having very different representations. The
empirical results are further verified using the local directional estimations
of the Lipschitz constants of the underlying models. Consequently, the
resulting representations change the results of downstream models, and such
models are subject to overgeneralization and with limited semantically
meaningful generalization capability.
- Abstract(参考訳): 事前訓練された大規模基礎モデルは、最近の人工知能の急増において中心的な役割を担っており、ベンチマークデータセット、標準試験、アプリケーションで測定した場合、優れた能力を持つ微調整されたモデルをもたらす。
その複雑さのため、これらのモデルはよく理解されていない。
このようなモデルに対する小さな逆入力はよく知られているが、表現空間の構造は基本的な重要性にもかかわらずよく特徴付けられるものではない。
本稿では、視覚変換器を入力空間の連続的な性質による例として用いて、その表現空間は、同じ表現を共有する非常に異なる入力が存在する大きな一方向線形部分空間と、全く異なる表現を持つ視覚的に区別できない入力が存在する局所正規空間からなることを示す。
実験結果は、基礎モデルのリプシッツ定数の局所的な方向推定を用いてさらに検証される。
その結果、結果の表現は下流モデルの結果を変化させ、そのようなモデルは過剰一般化の対象となり、意味論的に意味のある一般化能力が制限される。
関連論文リスト
- Analyzing Generative Models by Manifold Entropic Metrics [8.477943884416023]
抽出可能な情報理論評価指標を新たに導入する。
EMNISTデータセット上の各種正規化フローアーキテクチャと$beta$-VAEを比較した。
私たちの実験で最も興味深い発見は、トレーニング中に整列および非整合表現に収束する誘導バイアスの観点から、モデルアーキテクチャとトレーニング手順のランク付けです。
論文 参考訳(メタデータ) (2024-10-25T09:35:00Z) - The Extrapolation Power of Implicit Models [2.3526338188342653]
暗黙のモデルは、アウト・オブ・ディストリビューション、地理的、時間的シフトといった様々な外挿シナリオでテストに投入される。
我々の実験は暗黙のモデルで常に大きな性能上の優位性を証明している。
論文 参考訳(メタデータ) (2024-07-19T16:01:37Z) - Measuring Orthogonality in Representations of Generative Models [81.13466637365553]
教師なしの表現学習において、モデルは高次元データから低次元の学習表現に不可欠な特徴を蒸留することを目的としている。
独立した生成過程の切り離しは、長い間、高品質な表現を生み出してきた。
我々は、IWO(Importance-Weighted Orthogonality)とIWR(Importance-Weighted Rank)の2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T08:21:54Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Intriguing Differences Between Zero-Shot and Systematic Evaluations of
Vision-Language Transformer Models [7.360937524701675]
トランスフォーマーベースのモデルは、ベンチマークデータセットにおける優れた(ゼロショット)パフォーマンスのために、ここ数年で自然言語処理やその他の領域を支配してきた。
本稿では,新しい勾配勾配勾配最適化法に基づいて,一般的に使用される視覚言語モデルの埋め込み空間を探索する。
Imagenetteデータセットを用いて、モデルが99%以上のゼロショット分類性能を達成する一方で、体系的な評価を完全に失敗することを示した。
論文 参考訳(メタデータ) (2024-02-13T14:07:49Z) - Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。
本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。
この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文 参考訳(メタデータ) (2023-08-30T19:02:17Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Learning from few examples with nonlinear feature maps [68.8204255655161]
我々はこの現象を探求し、AIモデルの特徴空間の次元性、データ分散の非退化、モデルの一般化能力の間の重要な関係を明らかにする。
本分析の主な推力は、元のデータを高次元および無限次元空間にマッピングする非線形特徴変換が結果のモデル一般化能力に与える影響である。
論文 参考訳(メタデータ) (2022-03-31T10:36:50Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。