論文の概要: ViConEx-Med: Visual Concept Explainability via Multi-Concept Token Transformer for Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2510.10174v1
- Date: Sat, 11 Oct 2025 11:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.824571
- Title: ViConEx-Med: Visual Concept Explainability via Multi-Concept Token Transformer for Medical Image Analysis
- Title(参考訳): ViConEx-Med:医療画像解析のためのマルチコンセプトトークン変換器による視覚概念説明可能性
- Authors: Cristiano Patrício, Luís F. Teixeira, João C. Neves,
- Abstract要約: ViConEx-Medは、視覚的概念の説明可能性のためのトランスフォーマーベースのフレームワークである。
提案手法は,高い予測精度を維持しつつ,概念レベルのローカライズマップを生成する。
人工的および実世界の医療データセットの実験は、ViConEx-Medが従来のコンセプトベースモデルより優れていることを示した。
- 参考スコア(独自算出の注目度): 5.887969742827489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept-based models aim to explain model decisions with human-understandable concepts. However, most existing approaches treat concepts as numerical attributes, without providing complementary visual explanations that could localize the predicted concepts. This limits their utility in real-world applications and particularly in high-stakes scenarios, such as medical use-cases. This paper proposes ViConEx-Med, a novel transformer-based framework for visual concept explainability, which introduces multi-concept learnable tokens to jointly predict and localize visual concepts. By leveraging specialized attention layers for processing visual and text-based concept tokens, our method produces concept-level localization maps while maintaining high predictive accuracy. Experiments on both synthetic and real-world medical datasets demonstrate that ViConEx-Med outperforms prior concept-based models and achieves competitive performance with black-box models in terms of both concept detection and localization precision. Our results suggest a promising direction for building inherently interpretable models grounded in visual concepts. Code is publicly available at https://github.com/CristianoPatricio/viconex-med.
- Abstract(参考訳): 概念に基づくモデルは、人間の理解可能な概念でモデル決定を説明することを目的としている。
しかし、既存のほとんどのアプローチは、予測された概念をローカライズできる相補的な視覚的説明を提供することなく、概念を数値的な属性として扱う。
これにより、現実世界のアプリケーション、特に医療ユースケースのような高度なシナリオでの利用が制限される。
本稿では,視覚概念を共同で予測し,ローカライズするための多概念学習可能なトークンを導入した,視覚概念説明可能性のための新しいトランスフォーマーベースのフレームワークであるViConEx-Medを提案する。
視覚的・テキスト的概念トークンの処理に特別な注意層を利用することにより,高い予測精度を維持しつつ,概念レベルのローカライゼーションマップを生成する。
人工的および実世界の医療データセットの両方の実験では、ViConEx-Medは従来のコンセプトベースモデルよりも優れており、概念検出とローカライゼーション精度の両方の観点からブラックボックスモデルとの競合性能が達成されている。
この結果から,視覚的概念を基盤とした本質的に解釈可能なモデルを構築する上で,有望な方向性が示唆された。
コードはhttps://github.com/CristianoPatricio/viconex-med.comで公開されている。
関連論文リスト
- CoPA: Hierarchical Concept Prompting and Aggregating Network for Explainable Diagnosis [8.56688324078793]
Concept Prompting and Aggregating (CoPA)は、プロンプトガイダンスの下で多層概念をキャプチャするために設計された新しいフレームワークである。
各レイヤからの視覚表現は、テキストの概念表現と整合するように集約される。
CoPAは3つのパブリックデータセット上で最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-10-04T10:29:15Z) - OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - Concept Complement Bottleneck Model for Interpretable Medical Image Diagnosis [8.252227380729188]
本稿では,医用画像診断のための補完的ボトルネックモデルを提案する。
そこで本研究では,概念の相違点を抽出し,それぞれの注意チャンネルで概念をスコアリングするために,概念アダプタを利用することを提案する。
本モデルでは,概念検出と疾患診断の課題において,最先端の競争相手よりも優れていた。
論文 参考訳(メタデータ) (2024-10-20T16:52:09Z) - Cross-Modal Conceptualization in Bottleneck Models [21.2577097041883]
概念ボトルネックモデル(CBM)は、訓練例(例えば、x線画像)が高レベルの概念で注釈付けされていると仮定する。
このアプローチでは、より穏健な仮定を採用し、代わりに、訓練中の画像に付随するテキスト記述を用いて概念の導出を誘導する。
我々のクロスモーダルアプローチは,概念を離散潜在変数として扱い,(1)ラベルの予測,(2)画像とテキストの両方から確実に予測できる概念を促進する。
論文 参考訳(メタデータ) (2023-10-23T11:00:19Z) - Concept Bottleneck with Visual Concept Filtering for Explainable Medical
Image Classification [16.849592713393896]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念を中間目標として利用することにより、解釈可能な画像分類を可能にする。
視覚的アクティベーションスコアは,視覚的手がかりを含むか否かを測定する。
計算された視覚的アクティベーションスコアは、見えない概念をフィルタリングするために使用され、結果として視覚的に意味のある概念がセットされる。
論文 参考訳(メタデータ) (2023-08-23T05:04:01Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Visual Concepts Tokenization [65.61987357146997]
本稿では,教師なしトランスフォーマーに基づく視覚概念トークン化フレームワーク VCT を提案する。
これらの概念トークンを得るためには、概念トークン間の自己注意なしで画像トークン層から視覚情報を抽出するために、クロスアテンションのみを用いる。
さらに,異なる概念トークンが独立した視覚概念を表現することを容易にするために,概念分離損失を提案する。
論文 参考訳(メタデータ) (2022-05-20T11:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。