論文の概要: Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers
- arxiv url: http://arxiv.org/abs/2401.15568v1
- Date: Sun, 28 Jan 2024 04:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:39:09.414886
- Title: Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers
- Title(参考訳): 視覚トランスフォーマの埋め込み空間の興味深い同値構造
- Authors: Shaeke Salman and Md Montasir Bin Shams and Xiuwen Liu
- Abstract要約: 事前訓練された大規模な基盤モデルは、最近の人工知能の急増において中心的な役割を果たす。
それら固有の複雑さのため、これらのモデルはよく理解されていない。
解析および系統的な実験により、表現空間は大きな片方向線型部分空間からなることを示す。
- 参考スコア(独自算出の注目度): 1.7418480517632609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large foundation models play a central role in the recent surge
of artificial intelligence, resulting in fine-tuned models with remarkable
abilities when measured on benchmark datasets, standard exams, and
applications. Due to their inherent complexity, these models are not well
understood. While small adversarial inputs to such models are well known, the
structures of the representation space are not well characterized despite their
fundamental importance. In this paper, using the vision transformers as an
example due to the continuous nature of their input space, we show via analyses
and systematic experiments that the representation space consists of large
piecewise linear subspaces where there exist very different inputs sharing the
same representations, and at the same time, local normal spaces where there are
visually indistinguishable inputs having very different representations. The
empirical results are further verified using the local directional estimations
of the Lipschitz constants of the underlying models. Consequently, the
resulting representations change the results of downstream models, and such
models are subject to overgeneralization and with limited semantically
meaningful generalization capability.
- Abstract(参考訳): 事前訓練された大規模基礎モデルは、最近の人工知能の急増において中心的な役割を担っており、ベンチマークデータセット、標準試験、アプリケーションで測定した場合、優れた能力を持つ微調整されたモデルをもたらす。
その複雑さのため、これらのモデルはよく理解されていない。
このようなモデルに対する小さな逆入力はよく知られているが、表現空間の構造は基本的な重要性にもかかわらずよく特徴付けられるものではない。
本稿では、視覚変換器を入力空間の連続的な性質による例として用いて、その表現空間は、同じ表現を共有する非常に異なる入力が存在する大きな一方向線形部分空間と、全く異なる表現を持つ視覚的に区別できない入力が存在する局所正規空間からなることを示す。
実験結果は、基礎モデルのリプシッツ定数の局所的な方向推定を用いてさらに検証される。
その結果、結果の表現は下流モデルの結果を変化させ、そのようなモデルは過剰一般化の対象となり、意味論的に意味のある一般化能力が制限される。
関連論文リスト
- Intriguing Differences Between Zero-Shot and Systematic Evaluations of
Vision-Language Transformer Models [7.360937524701675]
トランスフォーマーベースのモデルは、ベンチマークデータセットにおける優れた(ゼロショット)パフォーマンスのために、ここ数年で自然言語処理やその他の領域を支配してきた。
本稿では,新しい勾配勾配勾配最適化法に基づいて,一般的に使用される視覚言語モデルの埋め込み空間を探索する。
Imagenetteデータセットを用いて、モデルが99%以上のゼロショット分類性能を達成する一方で、体系的な評価を完全に失敗することを示した。
論文 参考訳(メタデータ) (2024-02-13T14:07:49Z) - Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。
本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。
この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文 参考訳(メタデータ) (2023-08-30T19:02:17Z) - Towards Characterizing Domain Counterfactuals For Invertible Latent
Causal Models [16.96946087576007]
制約の少ない仮定でドメインの偽物推定を改善することを目的としている。
ドメイン対実的に等価なモデルを定義し、等価なモデルに必要な十分な性質を証明します。
この驚くべき結果は、最後の$k$遅延変数にのみ介入できるモデル設計が、反ファクトのモデル推定を改善することを示唆している。
論文 参考訳(メタデータ) (2023-06-20T04:19:06Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Exploring the Representation Manifolds of Stable Diffusion Through the
Lens of Intrinsic Dimension [0.0]
安定拡散のプロンプトによって誘導される基本幾何学的性質を理解するための第一歩を踏み出す。
我々は,プロンプトの選択がモデルの両層における表現の本質的な次元に重大な影響を与えることを発見した。
我々の証拠は、本質的な次元は、異なるプロンプトがテキスト・ツー・イメージモデルに与える影響について将来の研究に有用なツールになり得ることを示唆している。
論文 参考訳(メタデータ) (2023-02-16T16:22:30Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - A Study on the Generality of Neural Network Structures for Monocular
Depth Estimation [14.09373215954704]
分子深度推定の一般化に向けて,様々なバックボーンネットワークを深く研究する。
我々は、分布内と分布外の両方のデータセット上で、最先端のモデルを評価する。
我々はトランスフォーマーがCNNよりも強い形状バイアスを示すのを観察した。
論文 参考訳(メタデータ) (2023-01-09T04:58:12Z) - Learning from few examples with nonlinear feature maps [68.8204255655161]
我々はこの現象を探求し、AIモデルの特徴空間の次元性、データ分散の非退化、モデルの一般化能力の間の重要な関係を明らかにする。
本分析の主な推力は、元のデータを高次元および無限次元空間にマッピングする非線形特徴変換が結果のモデル一般化能力に与える影響である。
論文 参考訳(メタデータ) (2022-03-31T10:36:50Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。