論文の概要: ComFe: Interpretable Image Classifiers With Foundation Models
- arxiv url: http://arxiv.org/abs/2403.04125v4
- Date: Fri, 22 Nov 2024 01:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:43.812236
- Title: ComFe: Interpretable Image Classifiers With Foundation Models
- Title(参考訳): ComFe: ファンデーションモデルによる解釈可能なイメージ分類器
- Authors: Evelyn J. Mannix, Liam Hodgkinson, Howard Bondell,
- Abstract要約: 解釈可能なコンピュータビジョンモデルは、画像の埋め込みとトレーニングデータを表すプロトタイプのセットとの距離を比較することで、それらの分類を説明する。
ComFeは、ImageNet-1Kのようなデータセットのスケールで適用可能な、最初の解釈可能なアプローチである。
ComFeは、イメージ内の一貫したコンポーネントの特徴を識別し、これらの特徴のうちどれが予測に有益であるかを判断する。
- 参考スコア(独自算出の注目度): 8.572967695281054
- License:
- Abstract: Interpretable computer vision models explain their classifications through comparing the distances between the local embeddings of an image and a set of prototypes that represent the training data. However, these approaches introduce additional hyper-parameters that need to be tuned to apply to new datasets, scale poorly, and are more computationally intensive to train in comparison to black-box approaches. In this work, we introduce Component Features (ComFe), a modular and highly scalable interpretable-by-design image classification approach for pretrained Vision Transformers (ViTs) that can obtain competitive performance in comparison to comparable non-interpretable methods. ComFe is the first interpretable approach, that we know of, that can be applied at the scale of datasets such as ImageNet-1K. Additionally, ComFe provides improved robustness over non-interpretable methods and outperforms previous interpretable approaches on key benchmark datasets $\unicode{x2013}$ using a consistent set of hyper-parameters and without finetuning the pretrained ViT backbone. With only global image labels and no segmentation or part annotations, ComFe can identify consistent component features within an image and determine which of these features are informative in making a prediction.
- Abstract(参考訳): 解釈可能なコンピュータビジョンモデルは、画像の局所的な埋め込みとトレーニングデータを表すプロトタイプのセットとの距離を比較することで、それらの分類を説明する。
しかし、これらのアプローチは、新しいデータセットに適用するために調整する必要がある追加のハイパーパラメータを導入し、スケールが悪く、ブラックボックスアプローチと比較してトレーニングに重きを置いている。
本研究では、事前学習された視覚変換器(ViT)に対して、モジュール型かつ高スケーラブルな解釈可能な画像分類手法であるComFe(Component Features)を導入する。
ComFeは、私たちが知っている最初の解釈可能なアプローチであり、ImageNet-1Kのようなデータセットのスケールで適用できます。
さらにComFeは、非解釈可能なメソッドに対する堅牢性を改善し、トレーニング済みのViTバックボーンを微調整することなく、一貫したハイパーパラメータセットを使用して、キーベンチマークデータセットに対して以前の解釈可能なアプローチより優れています。
グローバルなイメージラベルのみを使用し、セグメンテーションやパートアノテーションを含まないことで、ComFeはイメージ内の一貫したコンポーネント機能を特定し、これらの機能のうちどれが予測に有益であるかを判断できる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Match Them Up: Visually Explainable Few-shot Image Classification [27.867833878756553]
ほとんどショットラーニングは、通常、訓練済みの知識がベース(見えない)カテゴリから得られ、新しい(見えない)カテゴリに十分に移行できるという仮定に基づいている。
本稿では、バックボーンモデルからの視覚的表現と、新たに導入された説明可能な分類器によって生成される重みを用いて、画像分類のための新しいFSLを実行する方法を明らかにする。
実験結果から,提案手法は3つの主流データセットに対して良好な精度と良好な説明性が得られることが示された。
論文 参考訳(メタデータ) (2020-11-25T05:47:35Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。