論文の概要: MATEX: Multi-scale Attention and Text-guided Explainability of Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.11666v1
- Date: Fri, 16 Jan 2026 01:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.268987
- Title: MATEX: Multi-scale Attention and Text-guided Explainability of Medical Vision-Language Models
- Title(参考訳): MATEX:医療ビジョンランゲージモデルにおけるマルチスケール注意とテキストガイドによる説明可能性
- Authors: Muhammad Imran, Chi Lee, Yugyung Lee,
- Abstract要約: MATEX(Multi-scale Attention and Text-guided Explainability)は、医学的視覚言語モデルにおいて、解剖学的に情報を得た空間的推論を取り入れ、解釈可能性を向上させる新しいフレームワークである。
MS-CXRデータセットを用いて、MATEXは、空間的精度と専門家が注釈を付けた結果との整合性の両方において、最先端のM2IBアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 2.6556452051077657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MATEX (Multi-scale Attention and Text-guided Explainability), a novel framework that advances interpretability in medical vision-language models by incorporating anatomically informed spatial reasoning. MATEX synergistically combines multi-layer attention rollout, text-guided spatial priors, and layer consistency analysis to produce precise, stable, and clinically meaningful gradient attribution maps. By addressing key limitations of prior methods, such as spatial imprecision, lack of anatomical grounding, and limited attention granularity, MATEX enables more faithful and interpretable model explanations. Evaluated on the MS-CXR dataset, MATEX outperforms the state-of-the-art M2IB approach in both spatial precision and alignment with expert-annotated findings. These results highlight MATEX's potential to enhance trust and transparency in radiological AI applications.
- Abstract(参考訳): MATEX(Multi-scale Attention and Text-guided Explainability)は、医学的視覚言語モデルにおいて、解剖学的に情報を得た空間的推論を取り入れ、解釈可能性を向上させる新しいフレームワークである。
MATEXは、多層アテンションロールアウト、テキスト誘導空間先行、階層一貫性分析を相乗的に組み合わせて、正確で安定で臨床的に有意義な勾配属性マップを生成する。
空間的不正確さ、解剖学的根拠の欠如、注意の粒度の制限といった従来の手法の重要な制限に対処することにより、MATEXはより忠実で解釈可能なモデル説明を可能にする。
MS-CXRデータセットで評価すると、MATEXは、空間的精度と専門家が注釈を付けた結果との整合性の両方において、最先端のM2IBアプローチよりも優れている。
これらの結果は、放射線AIアプリケーションにおける信頼性と透明性を高めるMATEXの可能性を強調している。
関連論文リスト
- MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - Grounding Multimodal Large Language Models with Quantitative Skin Attributes: A Retrieval Study [2.1206523992812545]
本稿では,MLLM(Multimodal Large Language Models)と量的属性利用という,有望な2つのアプローチの組み合わせについて検討する。
MLLMは、対話型フォーマットによる自然言語の診断の推論を提供する、解釈可能性の向上のための潜在的な道を提供する。
MLLM埋め込み空間は、画像からそれらの値を予測する微調整により、そのような属性でグラウンド化できることを示す。
論文 参考訳(メタデータ) (2025-08-27T18:05:05Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging [6.411386758550256]
PRS-Medは、視覚言語モデルとセグメンテーション機能を統合し、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。
MMRSデータセットは、医療画像における位置推論データの欠如に対処するために、多様な空間的な質問応答ペアを提供する。
論文 参考訳(メタデータ) (2025-05-17T06:42:28Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。