論文の概要: Towards Evaluating Explanations of Vision Transformers for Medical
Imaging
- arxiv url: http://arxiv.org/abs/2304.06133v1
- Date: Wed, 12 Apr 2023 19:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 16:17:20.011415
- Title: Towards Evaluating Explanations of Vision Transformers for Medical
Imaging
- Title(参考訳): 医用画像用視覚変換器の解説評価に向けて
- Authors: Piotr Komorowski, Hubert Baniecki, Przemys{\l}aw Biecek
- Abstract要約: Vision Transformer (ViT)は、画像分類のための畳み込みニューラルネットワークに代わる有望な代替手段である。
本稿では胸部X線画像の分類に応用したViTにおける様々な解釈手法の性能について検討する。
- 参考スコア(独自算出の注目度): 7.812073412066698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning models increasingly find applications in critical domains
such as medical imaging, the need for transparent and trustworthy
decision-making becomes paramount. Many explainability methods provide insights
into how these models make predictions by attributing importance to input
features. As Vision Transformer (ViT) becomes a promising alternative to
convolutional neural networks for image classification, its interpretability
remains an open research question. This paper investigates the performance of
various interpretation methods on a ViT applied to classify chest X-ray images.
We introduce the notion of evaluating faithfulness, sensitivity, and complexity
of ViT explanations. The obtained results indicate that Layerwise relevance
propagation for transformers outperforms Local interpretable model-agnostic
explanations and Attention visualization, providing a more accurate and
reliable representation of what a ViT has actually learned. Our findings
provide insights into the applicability of ViT explanations in medical imaging
and highlight the importance of using appropriate evaluation criteria for
comparing them.
- Abstract(参考訳): 深層学習モデルが医療画像などの重要な領域に応用されるようになるにつれ、透明性と信頼性の高い意思決定の必要性が最重要となる。
多くの説明可能性手法は、これらのモデルがどのようにして入力機能に重きを置くかについての洞察を提供する。
Vision Transformer (ViT) は画像分類のための畳み込みニューラルネットワークに代わる有望な代替品となり、その解釈性は依然としてオープンな研究課題である。
本稿では胸部X線画像の分類に応用したViTにおける様々な解釈手法の性能について検討する。
本稿では,ViT説明の忠実さ,敏感さ,複雑さを評価する概念を紹介する。
その結果,変換器の階層的関連性伝播は局所的解釈可能なモデルに依存しない説明や注意の可視化よりも優れており,ViTが実際に学んだことのより正確で信頼性の高い表現を提供することがわかった。
本研究は, 医用画像診断における ViT 説明の適用性に関する知見を提供し, 比較に適切な評価基準を用いることの重要性を強調した。
関連論文リスト
- Adaptive Knowledge Distillation for Classification of Hand Images using Explainable Vision Transformers [2.140951338124305]
本稿では,手動画像の分類における視覚変換器(ViT)の使用について検討する。
説明可能性ツールを用いて、ViTの内部表現を探索し、モデル出力への影響を評価する。
論文 参考訳(メタデータ) (2024-08-20T03:03:56Z) - A Recent Survey of Vision Transformers for Medical Image Segmentation [2.4895533667182703]
ヴィジュアルトランスフォーマー(ViT)は、医用画像セグメンテーションの課題に対処するための有望な技術として登場した。
マルチスケールアテンション機構により、遠方構造間の長距離依存を効果的にモデル化することができる。
近年、研究者らは、ハイブリッドビジョントランスフォーマー(HVT)として知られるアーキテクチャにCNNを組み込む様々なViTベースのアプローチを考案した。
論文 参考訳(メタデータ) (2023-12-01T14:54:44Z) - ViT-DAE: Transformer-driven Diffusion Autoencoder for Histopathology
Image Analysis [4.724009208755395]
高品質な病理画像合成のための視覚変換器(ViT)と拡散オートエンコーダを統合したViT-DAEを提案する。
提案手法は, 実写画像生成におけるGAN法とバニラDAE法より優れている。
論文 参考訳(メタデータ) (2023-04-03T15:00:06Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Towards Trustworthy Healthcare AI: Attention-Based Feature Learning for
COVID-19 Screening With Chest Radiography [70.37371604119826]
信頼性を備えたAIモデルの構築は、特に医療などの規制領域において重要である。
これまでの研究では、畳み込みニューラルネットワークをバックボーンアーキテクチャとして使用していた。
本稿では,視覚変換器を用いた特徴学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T14:55:42Z) - Self-Supervised Vision Transformers Learn Visual Concepts in
Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。
我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文 参考訳(メタデータ) (2022-03-01T16:14:41Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。