Fugu-MT 論文翻訳(概要): Scalable and Robust Transformer Decoders for Interpretable Image Classification with Foundation Models

論文の概要: Scalable and Robust Transformer Decoders for Interpretable Image Classification with Foundation Models

arxiv url: http://arxiv.org/abs/2403.04125v1
Date: Thu, 7 Mar 2024 00:44:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 15:32:24.662750
Title: Scalable and Robust Transformer Decoders for Interpretable Image Classification with Foundation Models
Title（参考訳）: 基礎モデルを用いた解釈可能な画像分類のためのスケーラブル・ロバスト変換器デコーダ
Authors: Evelyn Mannix and Howard Bondell
Abstract要約: 解釈可能なコンピュータビジョンモデルは、画像の特徴をトレーニングデータセットのプロトタイプと比較し、それら間の類似性が分類の基礎となる、透過的な予測を生成することができる。本稿では,トランスデコーダヘッドと階層的混合モデルを用いた新しい画像分類手法であるComFeを紹介する。グローバルなイメージラベルのみを使用し、セグメンテーションやアノテーションを含まないことで、ComFeは、鳥の頭、体、翼、尾などの一貫したイメージコンポーネントと画像背景を識別し、これらの特徴のうちどれが予測を行うに有益かを決定することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interpretable computer vision models can produce transparent predictions, where the features of an image are compared with prototypes from a training dataset and the similarity between them forms a basis for classification. Nevertheless these methods are computationally expensive to train, introduce additional complexity and may require domain knowledge to adapt hyper-parameters to a new dataset. Inspired by developments in object detection, segmentation and large-scale self-supervised foundation vision models, we introduce Component Features (ComFe), a novel explainable-by-design image classification approach using a transformer-decoder head and hierarchical mixture-modelling. With only global image labels and no segmentation or part annotations, ComFe can identify consistent image components, such as the head, body, wings and tail of a bird, and the image background, and determine which of these features are informative in making a prediction. We demonstrate that ComFe obtains higher accuracy compared to previous interpretable models across a range of fine-grained vision benchmarks, without the need to individually tune hyper-parameters for each dataset. We also show that ComFe outperforms a non-interpretable linear head across a range of datasets, including ImageNet, and improves performance on generalisation and robustness benchmarks.
Abstract（参考訳）: 解釈可能なコンピュータビジョンモデルは、画像の特徴をトレーニングデータセットのプロトタイプと比較し、それらの類似性が分類の基礎となる透明な予測を生成することができる。にもかかわらず、これらの手法は計算コストが高く、さらに複雑さをもたらし、新しいデータセットにハイパーパラメータを適用するためにドメイン知識を必要とする可能性がある。オブジェクト検出,セグメンテーション,大規模自己監督型ファンデーションビジョンモデルの開発に触発されて,トランスフォーマデコーダヘッドと階層的混合モデリングを用いた新しい画像分類手法であるComFe(Component Features)を導入する。グローバルイメージラベルのみを使用して、セグメンテーションや部分アノテーションを使わずに、comfeは鳥の頭、体、翼、尾、背景などの一貫したイメージコンポーネントを識別し、これらの特徴のうちどれが予測に役立っているかを決定することができる。我々は,各データセットのハイパーパラメータを個別にチューニングすることなく,細粒度ビジョンベンチマークにおいて,これまでの解釈可能なモデルよりも高い精度が得られることを実証する。また、ComFeは、ImageNetを含むさまざまなデータセットで非解釈可能な線形ヘッドよりも優れており、一般化や堅牢性ベンチマークのパフォーマンスが向上していることを示す。

関連論文リスト

TCSAFormer: Efficient Vision Transformer with Token Compression and Sparse Attention for Medical Image Segmentation [1.474723404975345]
本稿では,TCSAFormerという医用画像分割ネットワークを提案する。 Compressed Attention (CA)モジュールが組み込まれており、トークン圧縮と画素レベルのスパースアテンションを組み合わせて、クエリ毎に最も関連性の高いキーと値のペアに動的にフォーカスする。標準的なFFNの代替として、Dual-Branch Feed-Forward Network (DBFFN)モジュールを導入し、ローカルコンテキストの特徴とマルチスケール情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-06T03:38:07Z)
FCC: Fully Connected Correlation for Few-Shot Segmentation [11.277022867553658]
Few-shot segmentation (FSS) は、少数のサポートイメージとマスクのみを使用して、ターゲットオブジェクトをクエリイメージにセグメントすることを目的としている。従来の手法では, 最終層や同層の特徴に対する画素レベルの相関関係から相関写像を作成することで, 事前情報を得る方法が試みられている。サポート機能とクエリ機能の間にピクセルレベルの相関関係を統合するためにFCC(Fully Connected correlation)を導入する。
論文参考訳（メタデータ） (2024-11-18T03:32:02Z)
Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文参考訳（メタデータ） (2024-05-27T12:59:35Z)
Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文参考訳（メタデータ） (2024-05-06T02:02:57Z)
Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文参考訳（メタデータ） (2024-04-27T14:43:32Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文参考訳（メタデータ） (2023-12-17T11:59:14Z)
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文参考訳（メタデータ） (2023-08-23T18:53:00Z)
Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文参考訳（メタデータ） (2022-06-02T16:12:26Z)
Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文参考訳（メタデータ） (2022-04-12T15:03:51Z)
Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。 4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文参考訳（メタデータ） (2021-11-10T17:49:29Z)
Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文参考訳（メタデータ） (2021-06-08T06:13:11Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文参考訳（メタデータ） (2021-04-22T09:05:09Z)
Match Them Up: Visually Explainable Few-shot Image Classification [27.867833878756553]
ほとんどショットラーニングは、通常、訓練済みの知識がベース(見えない)カテゴリから得られ、新しい(見えない)カテゴリに十分に移行できるという仮定に基づいている。本稿では、バックボーンモデルからの視覚的表現と、新たに導入された説明可能な分類器によって生成される重みを用いて、画像分類のための新しいFSLを実行する方法を明らかにする。実験結果から,提案手法は3つの主流データセットに対して良好な精度と良好な説明性が得られることが示された。
論文参考訳（メタデータ） (2020-11-25T05:47:35Z)
FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文参考訳（メタデータ） (2020-07-16T17:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。