論文の概要: Scalable and Robust Transformer Decoders for Interpretable Image
Classification with Foundation Models
- arxiv url: http://arxiv.org/abs/2403.04125v1
- Date: Thu, 7 Mar 2024 00:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:32:24.662750
- Title: Scalable and Robust Transformer Decoders for Interpretable Image
Classification with Foundation Models
- Title(参考訳): 基礎モデルを用いた解釈可能な画像分類のためのスケーラブル・ロバスト変換器デコーダ
- Authors: Evelyn Mannix and Howard Bondell
- Abstract要約: 解釈可能なコンピュータビジョンモデルは、画像の特徴をトレーニングデータセットのプロトタイプと比較し、それら間の類似性が分類の基礎となる、透過的な予測を生成することができる。
本稿では,トランスデコーダヘッドと階層的混合モデルを用いた新しい画像分類手法であるComFeを紹介する。
グローバルなイメージラベルのみを使用し、セグメンテーションやアノテーションを含まないことで、ComFeは、鳥の頭、体、翼、尾などの一貫したイメージコンポーネントと画像背景を識別し、これらの特徴のうちどれが予測を行うに有益かを決定することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretable computer vision models can produce transparent predictions,
where the features of an image are compared with prototypes from a training
dataset and the similarity between them forms a basis for classification.
Nevertheless these methods are computationally expensive to train, introduce
additional complexity and may require domain knowledge to adapt
hyper-parameters to a new dataset. Inspired by developments in object
detection, segmentation and large-scale self-supervised foundation vision
models, we introduce Component Features (ComFe), a novel explainable-by-design
image classification approach using a transformer-decoder head and hierarchical
mixture-modelling. With only global image labels and no segmentation or part
annotations, ComFe can identify consistent image components, such as the head,
body, wings and tail of a bird, and the image background, and determine which
of these features are informative in making a prediction. We demonstrate that
ComFe obtains higher accuracy compared to previous interpretable models across
a range of fine-grained vision benchmarks, without the need to individually
tune hyper-parameters for each dataset. We also show that ComFe outperforms a
non-interpretable linear head across a range of datasets, including ImageNet,
and improves performance on generalisation and robustness benchmarks.
- Abstract(参考訳): 解釈可能なコンピュータビジョンモデルは、画像の特徴をトレーニングデータセットのプロトタイプと比較し、それらの類似性が分類の基礎となる透明な予測を生成することができる。
にもかかわらず、これらの手法は計算コストが高く、さらに複雑さをもたらし、新しいデータセットにハイパーパラメータを適用するためにドメイン知識を必要とする可能性がある。
オブジェクト検出,セグメンテーション,大規模自己監督型ファンデーションビジョンモデルの開発に触発されて,トランスフォーマデコーダヘッドと階層的混合モデリングを用いた新しい画像分類手法であるComFe(Component Features)を導入する。
グローバルイメージラベルのみを使用して、セグメンテーションや部分アノテーションを使わずに、comfeは鳥の頭、体、翼、尾、背景などの一貫したイメージコンポーネントを識別し、これらの特徴のうちどれが予測に役立っているかを決定することができる。
我々は,各データセットのハイパーパラメータを個別にチューニングすることなく,細粒度ビジョンベンチマークにおいて,これまでの解釈可能なモデルよりも高い精度が得られることを実証する。
また、ComFeは、ImageNetを含むさまざまなデータセットで非解釈可能な線形ヘッドよりも優れており、一般化や堅牢性ベンチマークのパフォーマンスが向上していることを示す。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Match Them Up: Visually Explainable Few-shot Image Classification [27.867833878756553]
ほとんどショットラーニングは、通常、訓練済みの知識がベース(見えない)カテゴリから得られ、新しい(見えない)カテゴリに十分に移行できるという仮定に基づいている。
本稿では、バックボーンモデルからの視覚的表現と、新たに導入された説明可能な分類器によって生成される重みを用いて、画像分類のための新しいFSLを実行する方法を明らかにする。
実験結果から,提案手法は3つの主流データセットに対して良好な精度と良好な説明性が得られることが示された。
論文 参考訳(メタデータ) (2020-11-25T05:47:35Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。