論文の概要: Analyzing Vision Transformers for Image Classification in Class
Embedding Space
- arxiv url: http://arxiv.org/abs/2310.18969v1
- Date: Sun, 29 Oct 2023 10:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:18:10.412264
- Title: Analyzing Vision Transformers for Image Classification in Class
Embedding Space
- Title(参考訳): クラス埋め込み空間における画像分類のための視覚変換器の解析
- Authors: Martina G. Vilas, Timothy Schauml\"offel and Gemma Roig
- Abstract要約: この研究は、画像分類タスクを解決するために訓練されたビジョン変換器をリバースエンジニアリングする手法を導入する。
NLPにおける過去の研究に触発されて、階層の任意のレベルにおける内部表現が、学習したクラス空間にどのように投影できるかを実証した。
我々は,画像トークンが注意機構や文脈情報に依存するクラス固有の表現をどのように発達させるかを示すために,我々のフレームワークを使用する。
- 参考スコア(独自算出の注目度): 5.210197476419621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing use of transformer models in computer vision, a
mechanistic understanding of these networks is still needed. This work
introduces a method to reverse-engineer Vision Transformers trained to solve
image classification tasks. Inspired by previous research in NLP, we
demonstrate how the inner representations at any level of the hierarchy can be
projected onto the learned class embedding space to uncover how these networks
build categorical representations for their predictions. We use our framework
to show how image tokens develop class-specific representations that depend on
attention mechanisms and contextual information, and give insights on how
self-attention and MLP layers differentially contribute to this categorical
composition. We additionally demonstrate that this method (1) can be used to
determine the parts of an image that would be important for detecting the class
of interest, and (2) exhibits significant advantages over traditional linear
probing approaches. Taken together, our results position our proposed framework
as a powerful tool for mechanistic interpretability and explainability
research.
- Abstract(参考訳): コンピュータビジョンにおけるトランスフォーマーモデルの普及にもかかわらず、これらのネットワークの機械的理解は依然として必要である。
この研究は、画像分類タスクを解決するために訓練されたビジョン変換器をリバースエンジニアリングする手法を導入する。
従来のNLP研究から着想を得て,階層の任意のレベルにおける内部表現を学習クラス埋め込み空間に投影して,これらのネットワークが予測のためにカテゴリ表現を構築する方法を明らかにする。
我々は,画像トークンが注意機構や文脈情報に依存するクラス固有の表現をどのように発達させるかを示すために,我々のフレームワークを用いて,自己注意層とMLP層が,この分類構成にどのように貢献するかを考察する。
さらに,本手法は,興味のクラスを検出する上で重要な画像の一部を決定するのに有効であることを示すとともに,従来の線形探索手法に比べて大きな優位性を示す。
その結果,提案手法を機械的な解釈と説明可能性研究の強力なツールとして位置づけた。
関連論文リスト
- Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision
Transformers for High-Level Image Classification [0.1843404256219181]
我々は,交流画像分類の性能と解釈性を高めるために,文化的イメージの位置認識的知識を活用する。
このリソースは、ACでラベル付けされた14,000以上の文化画像から得られた知覚的セマンティクスをキャプチャする。
本稿では,KGE埋め込みの知覚的知識と深部視覚モデルの知覚的知覚的理解の相乗効果と相補性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:46:48Z) - A Comprehensive Study of Vision Transformers in Image Classification
Tasks [0.46040036610482665]
画像分類のための視覚変換器に関する既存の論文を包括的に調査する。
まず,モデルの設計に影響を及ぼす人気画像分類データセットを紹介する。
まず、視覚タスクに注意機構を適応させようとする初期の試みから始まる、時系列順の視覚トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-12-02T21:38:16Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。
本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。
潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文 参考訳(メタデータ) (2022-10-20T17:59:54Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Self-supervised Contrastive Learning for Cross-domain Hyperspectral
Image Representation [26.610588734000316]
本稿では,アノテートが本質的に困難であるハイパースペクトル画像に適した自己教師型学習フレームワークを提案する。
提案するフレームワークアーキテクチャは、クロスドメインCNNを利用して、異なるハイパースペクトル画像から表現を学習する。
実験結果は、スクラッチや他の移動学習法から学習したモデルに対して、提案した自己教師型表現の利点を示す。
論文 参考訳(メタデータ) (2022-02-08T16:16:45Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z) - Transformer Interpretability Beyond Attention Visualization [87.96102461221415]
自己保持技術、特にトランスフォーマーは、テキスト処理の分野を支配しています。
本研究では,トランスフォーマーネットワークの関連性を計算する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-17T18:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。