論文の概要: Are Vision Transformer Representations Semantically Meaningful? A Case Study in Medical Imaging
- arxiv url: http://arxiv.org/abs/2507.01788v1
- Date: Wed, 02 Jul 2025 15:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.343203
- Title: Are Vision Transformer Representations Semantically Meaningful? A Case Study in Medical Imaging
- Title(参考訳): 視覚変換器の表現は意味を成すか? : 医用画像のケーススタディ
- Authors: Montasir Shams, Chashi Mahiul Islam, Shaeke Salman, Phat Tran, Xiuwen Liu,
- Abstract要約: 視覚変換器(ViT)は、疾患分類、セグメンテーション、検出などの医療画像タスクにおいて急速に普及している。
しかし、その大きさと自己認識機構による複雑な相互作用のため、それらはよく理解されていない。
これらの表現は意味論的に意味がなく、本質的に小さな変化に対して脆弱であることを示す。
- 参考スコア(独自算出の注目度): 1.3223682837381137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have rapidly gained prominence in medical imaging tasks such as disease classification, segmentation, and detection due to their superior accuracy compared to conventional deep learning models. However, due to their size and complex interactions via the self-attention mechanism, they are not well understood. In particular, it is unclear whether the representations produced by such models are semantically meaningful. In this paper, using a projected gradient-based algorithm, we show that their representations are not semantically meaningful and they are inherently vulnerable to small changes. Images with imperceptible differences can have very different representations; on the other hand, images that should belong to different semantic classes can have nearly identical representations. Such vulnerability can lead to unreliable classification results; for example, unnoticeable changes cause the classification accuracy to be reduced by over 60\%. %. To the best of our knowledge, this is the first work to systematically demonstrate this fundamental lack of semantic meaningfulness in ViT representations for medical image classification, revealing a critical challenge for their deployment in safety-critical systems.
- Abstract(参考訳): 視覚変換器 (ViT) は, 従来の深層学習モデルと比較して, 疾患分類, セグメンテーション, 検出などの医療画像タスクにおいて, 精度が優れており, 急速に普及している。
しかし、その大きさと自己認識機構による複雑な相互作用のため、それらはよく理解されていない。
特に、そのようなモデルによって生成された表現が意味論的に意味があるかどうかは不明である。
本稿では,予測勾配に基づくアルゴリズムを用いて,それらの表現が意味論的に意味を持たず,小さな変化に対して本質的に脆弱であることを示す。
一方、異なる意味クラスに属するべき画像は、ほぼ同一の表現を持つことができる。
このような脆弱性は、信頼性の低い分類結果をもたらす可能性がある。例えば、目立たない変更は、分類精度を60\%以上低下させる。
%であった。
我々の知る限りでは、医療画像分類におけるViT表現の基本的な意味的意味性の欠如を体系的に証明するのはこれが初めてであり、安全クリティカルなシステムへの展開において重要な課題であることを示している。
関連論文リスト
- Masked Attention as a Mechanism for Improving Interpretability of Vision Transformers [5.037784065945863]
Vision Transformerは、イメージを通常のグリッドに従って小さなパッチに分割することで処理する。
視覚変換器の注意機構の背景を暗黙的に隠蔽する新しい手法を提案する。
これにより、背景パッチに対応するトークンが最終的なイメージ表現に寄与しないことが保証される。
論文 参考訳(メタデータ) (2024-04-28T12:02:38Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Effective Data Augmentation With Diffusion Models [45.18188726287581]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - GraVIS: Grouping Augmented Views from Independent Sources for
Dermatology Analysis [52.04899592688968]
皮膚科画像から自己教師付き特徴を学習するために特に最適化されたGraVISを提案する。
GraVISは、病変のセグメンテーションと疾患分類のタスクにおいて、転送学習と自己教師型学習を著しく上回っている。
論文 参考訳(メタデータ) (2023-01-11T11:38:37Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Self-Supervised Vision Transformers Learn Visual Concepts in
Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。
我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文 参考訳(メタデータ) (2022-03-01T16:14:41Z) - A Semi-Supervised Classification Method of Apicomplexan Parasites and
Host Cell Using Contrastive Learning Strategy [6.677163460963862]
本稿では, 3種類のアピコプレキサン寄生虫と非感染宿主細胞顕微鏡像の半教師付き分類法を提案する。
少数のラベル付きデータと多数のラベルなしデータをトレーニングに使用します。
顕微鏡画像の1%しかラベル付けされていない場合、提案手法は一般化された試験セットで94.90%の精度に達する。
論文 参考訳(メタデータ) (2021-04-14T02:34:50Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - ICAM: Interpretable Classification via Disentangled Representations and
Feature Attribution Mapping [3.262230127283453]
画像から画像への変換によってクラス固有のFAマップを作成するための新しいフレームワークを提案する。
我々は,認知症,老化,(模擬)病変検出の2次元および3次元脳画像データセットを用いて,本手法の有効性を検証した。
提案手法は,表現型変動の探索を支援するために潜時空間サンプリングを用いた最初の手法である。
論文 参考訳(メタデータ) (2020-06-15T11:23:30Z) - Domain-aware Visual Bias Eliminating for Generalized Zero-Shot Learning [150.42959029611657]
ドメイン対応ビジュアルバイアス除去(DVBE)ネットワークは2つの相補的な視覚表現を構成する。
目に見えない画像に対しては、最適なセマンティック・視覚アライメントアーキテクチャを自動で検索する。
論文 参考訳(メタデータ) (2020-03-30T08:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。