論文の概要: Scalable and Robust Transformer Decoders for Interpretable Image
Classification with Foundation Models
- arxiv url: http://arxiv.org/abs/2403.04125v1
- Date: Thu, 7 Mar 2024 00:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:32:24.662750
- Title: Scalable and Robust Transformer Decoders for Interpretable Image
Classification with Foundation Models
- Title(参考訳): 基礎モデルを用いた解釈可能な画像分類のためのスケーラブル・ロバスト変換器デコーダ
- Authors: Evelyn Mannix and Howard Bondell
- Abstract要約: 解釈可能なコンピュータビジョンモデルは、画像の特徴をトレーニングデータセットのプロトタイプと比較し、それら間の類似性が分類の基礎となる、透過的な予測を生成することができる。
本稿では,トランスデコーダヘッドと階層的混合モデルを用いた新しい画像分類手法であるComFeを紹介する。
グローバルなイメージラベルのみを使用し、セグメンテーションやアノテーションを含まないことで、ComFeは、鳥の頭、体、翼、尾などの一貫したイメージコンポーネントと画像背景を識別し、これらの特徴のうちどれが予測を行うに有益かを決定することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretable computer vision models can produce transparent predictions,
where the features of an image are compared with prototypes from a training
dataset and the similarity between them forms a basis for classification.
Nevertheless these methods are computationally expensive to train, introduce
additional complexity and may require domain knowledge to adapt
hyper-parameters to a new dataset. Inspired by developments in object
detection, segmentation and large-scale self-supervised foundation vision
models, we introduce Component Features (ComFe), a novel explainable-by-design
image classification approach using a transformer-decoder head and hierarchical
mixture-modelling. With only global image labels and no segmentation or part
annotations, ComFe can identify consistent image components, such as the head,
body, wings and tail of a bird, and the image background, and determine which
of these features are informative in making a prediction. We demonstrate that
ComFe obtains higher accuracy compared to previous interpretable models across
a range of fine-grained vision benchmarks, without the need to individually
tune hyper-parameters for each dataset. We also show that ComFe outperforms a
non-interpretable linear head across a range of datasets, including ImageNet,
and improves performance on generalisation and robustness benchmarks.
- Abstract(参考訳): 解釈可能なコンピュータビジョンモデルは、画像の特徴をトレーニングデータセットのプロトタイプと比較し、それらの類似性が分類の基礎となる透明な予測を生成することができる。
にもかかわらず、これらの手法は計算コストが高く、さらに複雑さをもたらし、新しいデータセットにハイパーパラメータを適用するためにドメイン知識を必要とする可能性がある。
オブジェクト検出,セグメンテーション,大規模自己監督型ファンデーションビジョンモデルの開発に触発されて,トランスフォーマデコーダヘッドと階層的混合モデリングを用いた新しい画像分類手法であるComFe(Component Features)を導入する。
グローバルイメージラベルのみを使用して、セグメンテーションや部分アノテーションを使わずに、comfeは鳥の頭、体、翼、尾、背景などの一貫したイメージコンポーネントを識別し、これらの特徴のうちどれが予測に役立っているかを決定することができる。
我々は,各データセットのハイパーパラメータを個別にチューニングすることなく,細粒度ビジョンベンチマークにおいて,これまでの解釈可能なモデルよりも高い精度が得られることを実証する。
また、ComFeは、ImageNetを含むさまざまなデータセットで非解釈可能な線形ヘッドよりも優れており、一般化や堅牢性ベンチマークのパフォーマンスが向上していることを示す。
関連論文リスト
- With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - T-ADAF: Adaptive Data Augmentation Framework for Image Classification
Network based on Tensor T-product Operator [0.0]
本稿ではテンソルT-Product Operatorに基づくAdaptive Data Augmentation Frameworkを提案する。
1つの画像データを3倍にし、これら3つの画像から結果を得る。
数値実験により、我々のデータ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-07T08:30:44Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Probabilistic Tracking with Deep Factors [8.030212474745879]
因子グラフに基づく確率的追跡フレームワークにおける特徴量に対する生成密度と組み合わせたディープ・フィーチャー・エンコーディングの使い方を示す。
本稿では,学習した特徴エンコーダと生成密度を組み合わせる可能性モデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T21:31:51Z) - Multi-Facet Clustering Variational Autoencoders [9.150555507030083]
画像などの高次元データは通常、クラスタリング可能な複数の興味深い特徴を特徴付ける。
MFCVAE(Multi-Facet Clustering Variational Autoencoders)を導入する。
MFCVAEは複数のクラスタリングを同時に学習し、完全に教師なしでエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-06-09T17:36:38Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。