論文の概要: Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding
- arxiv url: http://arxiv.org/abs/2505.15123v1
- Date: Wed, 21 May 2025 05:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.902941
- Title: Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding
- Title(参考訳): 森の樹木を見る:医療用ビジュアルグラウンドの再考
- Authors: Ta Duc Huy, Duy Anh Huynh, Yutong Xie, Yuankai Qi, Qi Chen, Phi Le Nguyen, Sen Kim Tran, Son Lam Phung, Anton van den Hengel, Zhibin Liao, Minh-Son To, Johan W. Verjans, Vu Minh Hieu Phan,
- Abstract要約: 現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。
DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
- 参考スコア(独自算出の注目度): 50.483761005446
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual grounding (VG) is the capability to identify the specific regions in an image associated with a particular text description. In medical imaging, VG enhances interpretability by highlighting relevant pathological features corresponding to textual descriptions, improving model transparency and trustworthiness for wider adoption of deep learning models in clinical practice. Current models struggle to associate textual descriptions with disease regions due to inefficient attention mechanisms and a lack of fine-grained token representations. In this paper, we empirically demonstrate two key observations. First, current VLMs assign high norms to background tokens, diverting the model's attention from regions of disease. Second, the global tokens used for cross-modal learning are not representative of local disease tokens. This hampers identifying correlations between the text and disease tokens. To address this, we introduce simple, yet effective Disease-Aware Prompting (DAP) process, which uses the explainability map of a VLM to identify the appropriate image features. This simple strategy amplifies disease-relevant regions while suppressing background interference. Without any additional pixel-level annotations, DAP improves visual grounding accuracy by 20.74% compared to state-of-the-art methods across three major chest X-ray datasets.
- Abstract(参考訳): ビジュアルグラウンドディング(VG)は、特定のテキスト記述に関連する画像内の特定の領域を識別する機能である。
医用画像において、VGは、テキスト記述に対応する関連病理学的特徴を強調し、モデルの透明性と信頼性を改善し、臨床実践におけるディープラーニングモデルの普及を広げることにより、解釈可能性を高める。
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では,2つの重要な観測結果を実証的に示す。
まず、現在のVLMは背景トークンに高いノルムを割り当て、モデルの注意を病気の領域から逸脱させる。
第二に、クロスモーダル学習に使用されるグローバルトークンは、局所的な病気トークンを表すものではない。
このハマーは、テキストと病気トークンの相関を識別する。
これを解決するために,VLMの説明可能性マップを用いて画像の特徴を識別する簡易かつ効果的なDAPプロセスを提案する。
この単純な戦略は、背景干渉を抑制しながら疾患関連領域を増幅する。
追加のピクセルレベルのアノテーションがなければ、DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
関連論文リスト
- From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [46.99748372216857]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - Class Attention to Regions of Lesion for Imbalanced Medical Image
Recognition [59.28732531600606]
データ不均衡問題に対処するため,textbfClass textbfAttention to textbfRegions of the lesion (CARE)を提案する。
CAREフレームワークは、まれな疾患の病変領域を表すために、バウンディングボックスを必要とする。
その結果,自動バウンディングボックス生成によるCARE変種は,オリジナルのCAREフレームワークに匹敵することがわかった。
論文 参考訳(メタデータ) (2023-07-19T15:19:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。