Fugu-MT 論文翻訳(概要): Intriguing Equivalence Structures of the Embedding Space of Vision Transformers

論文の概要: Intriguing Equivalence Structures of the Embedding Space of Vision Transformers

arxiv url: http://arxiv.org/abs/2401.15568v1
Date: Sun, 28 Jan 2024 04:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 17:39:09.414886
Title: Intriguing Equivalence Structures of the Embedding Space of Vision Transformers
Title（参考訳）: 視覚トランスフォーマの埋め込み空間の興味深い同値構造
Authors: Shaeke Salman and Md Montasir Bin Shams and Xiuwen Liu
Abstract要約: 事前訓練された大規模な基盤モデルは、最近の人工知能の急増において中心的な役割を果たす。それら固有の複雑さのため、これらのモデルはよく理解されていない。解析および系統的な実験により、表現空間は大きな片方向線型部分空間からなることを示す。
参考スコア（独自算出の注目度）: 1.7418480517632609
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained large foundation models play a central role in the recent surge of artificial intelligence, resulting in fine-tuned models with remarkable abilities when measured on benchmark datasets, standard exams, and applications. Due to their inherent complexity, these models are not well understood. While small adversarial inputs to such models are well known, the structures of the representation space are not well characterized despite their fundamental importance. In this paper, using the vision transformers as an example due to the continuous nature of their input space, we show via analyses and systematic experiments that the representation space consists of large piecewise linear subspaces where there exist very different inputs sharing the same representations, and at the same time, local normal spaces where there are visually indistinguishable inputs having very different representations. The empirical results are further verified using the local directional estimations of the Lipschitz constants of the underlying models. Consequently, the resulting representations change the results of downstream models, and such models are subject to overgeneralization and with limited semantically meaningful generalization capability.
Abstract（参考訳）: 事前訓練された大規模基礎モデルは、最近の人工知能の急増において中心的な役割を担っており、ベンチマークデータセット、標準試験、アプリケーションで測定した場合、優れた能力を持つ微調整されたモデルをもたらす。その複雑さのため、これらのモデルはよく理解されていない。このようなモデルに対する小さな逆入力はよく知られているが、表現空間の構造は基本的な重要性にもかかわらずよく特徴付けられるものではない。本稿では、視覚変換器を入力空間の連続的な性質による例として用いて、その表現空間は、同じ表現を共有する非常に異なる入力が存在する大きな一方向線形部分空間と、全く異なる表現を持つ視覚的に区別できない入力が存在する局所正規空間からなることを示す。実験結果は、基礎モデルのリプシッツ定数の局所的な方向推定を用いてさらに検証される。その結果、結果の表現は下流モデルの結果を変化させ、そのようなモデルは過剰一般化の対象となり、意味論的に意味のある一般化能力が制限される。

関連論文リスト

Connecting Neural Models Latent Geometries with Relative Geodesic Representations [21.71782603770616]
遅延構造を異なる潜在空間間で共有する場合、表現間の相対距離を歪みまで保存できることが示される。異なるニューラルモデルは、ほぼ同じ基礎多様体をパラメータ化し、プルバック計量に基づく表現を導入すると仮定する。本手法は,オートエンコーダと視覚基盤識別モデルを対象として,モデルの縫合と検索のタスクについて検証する。
論文参考訳（メタデータ） (2025-06-02T12:34:55Z)
Linear Representation Transferability Hypothesis: Leveraging Small Models to Steer Large Models [6.390475802910619]
同一データ上で訓練されたモデル間で学習された表現は、基本特徴の近辺集合の線形結合として表現できることを示す。これらの基本機能は、学習タスク自体を基盤とし、スケールに関係なく、モデル間で一貫性を維持します。
論文参考訳（メタデータ） (2025-05-31T17:45:18Z)
Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文参考訳（メタデータ） (2025-05-30T12:39:26Z)
Compositional Generalization Requires More Than Disentangled Representations [5.762286612061953]
作曲の一般化は深層学習の鍵となる課題です多くの生成モデルは、アウト・オブ・ディストリビューション(OOD)サンプルを生成する因子を認識し、構成することができない。正規化や訓練データによるアーキテクチャ変更を強制的に行うモデルは,OOD領域の学習において,データ効率が高く,効果的であることを示す。
論文参考訳（メタデータ） (2025-01-30T23:20:41Z)
Analyzing Generative Models by Manifold Entropic Metrics [8.477943884416023]
抽出可能な情報理論評価指標を新たに導入する。 EMNISTデータセット上の各種正規化フローアーキテクチャと$beta$-VAEを比較した。私たちの実験で最も興味深い発見は、トレーニング中に整列および非整合表現に収束する誘導バイアスの観点から、モデルアーキテクチャとトレーニング手順のランク付けです。
論文参考訳（メタデータ） (2024-10-25T09:35:00Z)
The Extrapolation Power of Implicit Models [2.3526338188342653]
暗黙のモデルは、アウト・オブ・ディストリビューション、地理的、時間的シフトといった様々な外挿シナリオでテストに投入される。我々の実験は暗黙のモデルで常に大きな性能上の優位性を証明している。
論文参考訳（メタデータ） (2024-07-19T16:01:37Z)
Measuring Orthogonality in Representations of Generative Models [81.13466637365553]
教師なしの表現学習において、モデルは高次元データから低次元の学習表現に不可欠な特徴を蒸留することを目的としている。独立した生成過程の切り離しは、長い間、高品質な表現を生み出してきた。我々は、IWO(Importance-Weighted Orthogonality)とIWR(Importance-Weighted Rank)の2つの新しい指標を提案する。
論文参考訳（メタデータ） (2024-07-04T08:21:54Z)
Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文参考訳（メタデータ） (2024-04-02T22:27:24Z)
Intriguing Differences Between Zero-Shot and Systematic Evaluations of Vision-Language Transformer Models [7.360937524701675]
トランスフォーマーベースのモデルは、ベンチマークデータセットにおける優れた(ゼロショット)パフォーマンスのために、ここ数年で自然言語処理やその他の領域を支配してきた。本稿では,新しい勾配勾配勾配最適化法に基づいて,一般的に使用される視覚言語モデルの埋め込み空間を探索する。 Imagenetteデータセットを用いて、モデルが99%以上のゼロショット分類性能を達成する一方で、体系的な評価を完全に失敗することを示した。
論文参考訳（メタデータ） (2024-02-13T14:07:49Z)
Emergence of Segmentation with Minimalistic White-Box Transformers [22.688777622988795]
従来の研究では、視覚変換器(ViT)はDINOのような自己教師型手法で訓練されるが、教師型分類タスクでは訓練されていない。本研究では,複雑な自己教師付き学習機構の結果としてのみ,変圧器モデルにセグメンテーションが出現するかどうかを考察する。この結果から,高い性能と数学的に完全に解釈可能なホワイトボックス基礎モデルを設計するための道筋が示唆された。
論文参考訳（メタデータ） (2023-08-30T19:02:17Z)
Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文参考訳（メタデータ） (2023-05-28T06:30:29Z)
VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2023-04-03T13:13:19Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
Learning from few examples with nonlinear feature maps [68.8204255655161]
我々はこの現象を探求し、AIモデルの特徴空間の次元性、データ分散の非退化、モデルの一般化能力の間の重要な関係を明らかにする。本分析の主な推力は、元のデータを高次元および無限次元空間にマッピングする非線形特徴変換が結果のモデル一般化能力に与える影響である。
論文参考訳（メタデータ） (2022-03-31T10:36:50Z)
Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文参考訳（メタデータ） (2022-01-08T00:47:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。