論文の概要: ComFe: Interpretable Image Classifiers With Foundation Models, Transformers and Component Features
- arxiv url: http://arxiv.org/abs/2403.04125v3
- Date: Fri, 24 May 2024 06:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 20:56:39.333973
- Title: ComFe: Interpretable Image Classifiers With Foundation Models, Transformers and Component Features
- Title(参考訳): ComFe: ファンデーションモデル、トランスフォーマー、コンポーネント機能を備えた解釈可能なイメージ分類器
- Authors: Evelyn Mannix, Howard Bondell,
- Abstract要約: コンポーネント特徴(ComFe)は、新しい解釈可能な画像分類手法である。
高度にスケーラブルで、非解釈可能な手法と比較して精度と堅牢性を向上させることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretable computer vision models are able to explain their reasoning through comparing the distances between the image patch embeddings and prototypes within a latent space. However, many of these approaches introduce additional complexity, can require multiple training steps and often have a performance cost in comparison to black-box approaches. In this work, we introduce Component Features (ComFe), a novel interpretable-by-design image classification approach that is highly scalable and can obtain better accuracy and robustness in comparison to non-interpretable methods. Inspired by recent developments in computer vision foundation models, ComFe uses a transformer-decoder head and a hierarchical mixture-modelling approach with a foundation model backbone to obtain higher accuracy compared to previous interpretable models across a range of fine-grained vision benchmarks, without the need to individually tune hyper-parameters for each dataset. With only global image labels and no segmentation or part annotations, ComFe can identify consistent component features within an image and determine which of these features are informative in making a prediction.
- Abstract(参考訳): 解釈可能なコンピュータビジョンモデルは、画像パッチの埋め込みと潜伏空間内のプロトタイプの間の距離を比較することで、それらの推論を説明することができる。
しかしながら、これらのアプローチの多くは追加の複雑さを導入し、複数のトレーニングステップを必要とし、ブラックボックスアプローチと比較してパフォーマンスコストがかかることが多い。
本研究では,高スケーラブルで,非解釈不可能な手法と比較して精度と堅牢性を向上できる新しい解釈可能な画像分類手法であるComFeを紹介する。
コンピュータビジョン基礎モデルの最近の発展に触発されて、ComFeはトランスフォーマーデコーダヘッドと階層的な混合モデリングアプローチを使用して、データセットごとにハイパーパラメータを個別にチューニングすることなく、様々な細かいビジョンベンチマークにわたる以前の解釈可能なモデルと比較して高い精度を得る。
グローバルなイメージラベルのみを使用し、セグメンテーションやパートアノテーションを含まないことで、ComFeはイメージ内の一貫したコンポーネント機能を特定し、これらの機能のうちどれが予測に有益であるかを判断できる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Match Them Up: Visually Explainable Few-shot Image Classification [27.867833878756553]
ほとんどショットラーニングは、通常、訓練済みの知識がベース(見えない)カテゴリから得られ、新しい(見えない)カテゴリに十分に移行できるという仮定に基づいている。
本稿では、バックボーンモデルからの視覚的表現と、新たに導入された説明可能な分類器によって生成される重みを用いて、画像分類のための新しいFSLを実行する方法を明らかにする。
実験結果から,提案手法は3つの主流データセットに対して良好な精度と良好な説明性が得られることが示された。
論文 参考訳(メタデータ) (2020-11-25T05:47:35Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。