論文の概要: A Simple Interpretable Transformer for Fine-Grained Image Classification
and Analysis
- arxiv url: http://arxiv.org/abs/2311.04157v1
- Date: Tue, 7 Nov 2023 17:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:34:22.865509
- Title: A Simple Interpretable Transformer for Fine-Grained Image Classification
and Analysis
- Title(参考訳): 微細画像分類・解析のための簡易解釈変換器
- Authors: Dipanjyoti Paul, Arpita Chowdhury, Xinqi Xiong, Feng-Ju Chang, David
Carlyn, Samuel Stevens, Kaiya Provost, Anuj Karpatne, Bryan Carstens, Daniel
Rubenstein, Charles Stewart, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao
- Abstract要約: 我々はこのアイデアを、Detection TRansformer (DETR) にインスパイアされた Transformer Encoder-decoder を通じて実現した。
Interpretable TRansformer (INTR) は実装が容易で、いくつかの魅力的な特性を示す。
- 参考スコア(独自算出の注目度): 25.081120720673376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel usage of Transformers to make image classification
interpretable. Unlike mainstream classifiers that wait until the last
fully-connected layer to incorporate class information to make predictions, we
investigate a proactive approach, asking each class to search for itself in an
image. We realize this idea via a Transformer encoder-decoder inspired by
DEtection TRansformer (DETR). We learn ``class-specific'' queries (one for each
class) as input to the decoder, enabling each class to localize its patterns in
an image via cross-attention. We name our approach INterpretable TRansformer
(INTR), which is fairly easy to implement and exhibits several compelling
properties. We show that INTR intrinsically encourages each class to attend
distinctively; the cross-attention weights thus provide a faithful
interpretation of the prediction. Interestingly, via ``multi-head''
cross-attention, INTR could identify different ``attributes'' of a class,
making it particularly suitable for fine-grained classification and analysis,
which we demonstrate on eight datasets. Our code and pre-trained model are
publicly accessible at https://github.com/Imageomics/INTR.
- Abstract(参考訳): 本稿では,画像分類を解釈可能なトランスフォーマーを提案する。
最後の完全接続層が予測を行うためにクラス情報を組み込むのを待つ主流の分類器とは異なり、私たちは各クラスにイメージ内で自身を検索するよう依頼する積極的なアプローチを調査する。
我々はこのアイデアを,Detection TRansformer (DETR) にインスパイアされた Transformer encoder-decoder で実現した。
私たちは ``class-specific''' クエリをデコーダへの入力として学習し、各クラスがクロスアテンションを通じてそのパターンをイメージにローカライズできるようにします。
実装が比較的容易で,いくつかの説得力のある特性を有するintr( approach interpretable transformer)と命名する。
我々は,INTRが各クラスに固有の参加を促すことを示し,横断的な重み付けは予測の忠実な解釈を与える。
興味深いことに、`multi-head'' のクロスアテンションによって、intrはクラスの異なる ``attributes'' を識別することができ、特に8つのデータセットで示すきめ細かい分類と分析に適している。
私たちのコードと事前トレーニングされたモデルは、https://github.com/imageomics/intr.comから公開できます。
関連論文リスト
- Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Prediction Calibration for Generalized Few-shot Semantic Segmentation [101.69940565204816]
汎用Few-shot Semantic (GFSS) は、各画像ピクセルを、豊富なトレーニング例を持つベースクラスか、クラスごとにわずかに(例: 1-5)のトレーニングイメージを持つ新しいクラスのいずれかに分割することを目的としている。
我々は、融合したマルチレベル機能を用いて、分類器の最終予測をガイドするクロスアテンションモジュールを構築する。
私たちのPCNは、最先端の代替品よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-10-15T13:30:12Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - iCAR: Bridging Image Classification and Image-text Alignment for Visual
Recognition [33.2800417526215]
画像分類は,過去10年間の視覚的表現学習における主要なアプローチである。
しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において、有望なパフォーマンスを示すようになった。
本稿では,2つの学習課題を効果的に橋渡しする3つの適応型深層融合法を提案する。
論文 参考訳(メタデータ) (2022-04-22T15:27:21Z) - Matching Feature Sets for Few-Shot Image Classification [22.84472344406448]
セットベースの表現は本質的に、ベースクラスからの画像のよりリッチな表現を構築します。
私たちのアプローチは、SetFeatと呼ばれ、既存のエンコーダアーキテクチャに浅い自己アテンションメカニズムを組み込んでいます。
論文 参考訳(メタデータ) (2022-04-02T22:42:54Z) - Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight
Transformer [112.95747173442754]
数ショットのセマンティックセグメンテーションモデルは典型的にはCNNエンコーダ、CNNデコーダ、単純な分類器から構成される。
既存のほとんどのメソッドは、新しいクラスに迅速に適応するために、3つのモデルコンポーネント全てをメタ学習する。
本稿では,最も単純なコンポーネントである分類器にのみ焦点をあてて,メタ学習タスクの簡略化を提案する。
論文 参考訳(メタデータ) (2021-08-06T10:20:08Z) - Improving Few-shot Learning with Weakly-supervised Object Localization [24.3569501375842]
画像のクラス関連領域から特徴を抽出してクラス表現を生成する新しいフレームワークを提案する。
提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。
論文 参考訳(メタデータ) (2021-05-25T07:39:32Z) - Semantically Meaningful Class Prototype Learning for One-Shot Image
Semantic Segmentation [58.96902899546075]
ワンショットセマンティックイメージセグメンテーションは、1つの注釈付きイメージで新しいクラスのオブジェクト領域を分割することを目的としている。
最近の研究では、テスト時に予想される状況を模倣するために、エピソディクストレーニング戦略を採用している。
エピソードトレーニングにおいて,マルチクラスラベル情報を活用することを提案する。
ネットワークが各カテゴリに対してより意味のある機能を生成するように促すだろう。
論文 参考訳(メタデータ) (2021-02-22T12:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。