論文の概要: From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2504.11368v1
- Date: Tue, 15 Apr 2025 16:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:34.209343
- Title: From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation
- Title(参考訳): 視線から視線へ:微弱に監督された医用画像セグメンテーションのための人間の視覚注意と視覚言語モデル説明
- Authors: Jingkun Chen, Haoran Duan, Xiao Zhang, Boyan Gao, Tao Tan, Vicente Grau, Jungong Han,
- Abstract要約: 視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
- 参考スコア(独自算出の注目度): 46.99748372216857
- License:
- Abstract: Medical image segmentation remains challenging due to the high cost of pixel-level annotations for training. In the context of weak supervision, clinician gaze data captures regions of diagnostic interest; however, its sparsity limits its use for segmentation. In contrast, vision-language models (VLMs) provide semantic context through textual descriptions but lack the explanation precision required. Recognizing that neither source alone suffices, we propose a teacher-student framework that integrates both gaze and language supervision, leveraging their complementary strengths. Our key insight is that gaze data indicates where clinicians focus during diagnosis, while VLMs explain why those regions are significant. To implement this, the teacher model first learns from gaze points enhanced by VLM-generated descriptions of lesion morphology, establishing a foundation for guiding the student model. The teacher then directs the student through three strategies: (1) Multi-scale feature alignment to fuse visual cues with textual semantics; (2) Confidence-weighted consistency constraints to focus on reliable predictions; (3) Adaptive masking to limit error propagation in uncertain areas. Experiments on the Kvasir-SEG, NCI-ISBI, and ISIC datasets show that our method achieves Dice scores of 80.78%, 80.53%, and 84.22%, respectively-improving 3-5% over gaze baselines without increasing the annotation burden. By preserving correlations among predictions, gaze data, and lesion descriptions, our framework also maintains clinical interpretability. This work illustrates how integrating human visual attention with AI-generated semantic context can effectively overcome the limitations of individual weak supervision signals, thereby advancing the development of deployable, annotation-efficient medical AI systems. Code is available at: https://github.com/jingkunchen/FGI.git.
- Abstract(参考訳): 医用画像のセグメンテーションは、訓練用のピクセルレベルのアノテーションのコストが高いため、依然として困難である。
弱い監督の文脈では、臨床医の視線データは診断上の関心のある領域を捉えているが、その空間性はセグメンテーションの使用を制限する。
対照的に、視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、必要な説明精度は欠如している。
いずれの情報源も十分ではないことを認識し,その相補的な強みを活かし,視線と言語を両立する教師学習フレームワークを提案する。
我々の重要な洞察は、視線データが診断中の臨床医の焦点を示すのに対し、VLMはこれらの領域が重要である理由を説明することである。
これを実現するために、教師モデルは、まず、VLMによる病変形態の記述によって強化された視線ポイントから学習し、学生モデルを導く基盤を確立する。
教師は,(1)視覚的手がかりをテキスト意味と融合させるマルチスケールな特徴アライメント,(2)信頼度重み付き一貫性制約,(3)不確実領域における誤りの伝播を制限する適応マスク,の3つの戦略を指導する。
Kvasir-SEG, NCI-ISBI, ISICデータセットを用いた実験により, アノテーションの負担を増大させることなく, 目視基準線を3~5%上回る80.78%, 80.53%, 84.22%のDiceスコアが得られた。
また, 予測, 視線データ, 病変記述の相関を保ち, 臨床解釈可能性も維持する。
この研究は、人間の視覚的注意とAI生成のセマンティックコンテキストを統合することで、個々の弱い監視信号の制限を効果的に克服し、デプロイ可能な、アノテーション効率の良い医療AIシステムの開発を促進する方法を説明する。
コードは、https://github.com/jingkunchen/FGI.git.comで入手できる。
関連論文リスト
- FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image Classification [4.148491257542209]
少ないショット学習は、計算病理学における癌診断の重要な解決策である。
このパラダイムにおける重要な課題は、スライド画像全体(WSI)の限られたトレーニングセットと膨大な数のパッチとの間の固有の相違に起因する。
我々は、診断関連領域の集中分析を可能にするために、知識強化型適応型視覚圧縮フレームワーク、FOCUSを紹介した。
論文 参考訳(メタデータ) (2024-11-22T05:36:38Z) - Affinity-Graph-Guided Contractive Learning for Pretext-Free Medical Image Segmentation with Minimal Annotation [55.325956390997]
本稿では,医用画像セグメンテーションのための親和性グラフ誘導半教師付きコントラスト学習フレームワーク(Semi-AGCL)を提案する。
このフレームワークは、まず、ロバストな初期特徴空間を提供する平均パッチエントロピー駆動のパッチ間サンプリング法を設計する。
完全アノテーションセットの10%に過ぎず, 完全注釈付きベースラインの精度にアプローチし, 限界偏差は2.52%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-14T10:44:47Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - OTCXR: Rethinking Self-supervised Alignment using Optimal Transport for Chest X-ray Analysis [6.4136876268620115]
自己教師付き学習(SSL)は,X線などの医学的モダリティを解析するための有望な手法として登場した。
我々は,OTCXRを提案する。OTCXRは最適なトランスポート(OT)を利用して,密接なセマンティック不変性を学習する新しいSSLフレームワークである。
我々はOTCXRの有効性を3つの公開胸部X線データセットの総合的な実験により検証した。
論文 参考訳(メタデータ) (2024-04-18T02:59:48Z) - Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Latent Graph Representations for Critical View of Safety Assessment [2.9724186623561435]
CVS予測の手法として,まず乱れのあるシーングラフを用いて手術画像の表現を行い,その表現をグラフニューラルネットワークを用いて処理する手法を提案する。
我々のグラフ表現は、意味情報を明示的に符号化し、解剖学的推論を改善するとともに、視覚的特徴を識別可能性を維持し、意味的誤りに対する堅牢性を提供する。
本手法は,ボックスアノテーションのトレーニングにおいて,複数のベースラインメソッドよりも優れるだけでなく,セグメンテーションマスクのトレーニング時にも効果的にスケールし,最先端のパフォーマンスを維持していることを示す。
論文 参考訳(メタデータ) (2022-12-08T09:21:09Z) - Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。
まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。
第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文 参考訳(メタデータ) (2022-09-27T15:50:31Z) - IA-GCN: Interpretable Attention based Graph Convolutional Network for
Disease prediction [47.999621481852266]
タスクに対する入力特徴の臨床的関連性を解釈する,解釈可能なグラフ学習モデルを提案する。
臨床シナリオでは、そのようなモデルは、臨床専門家が診断および治療計画のためのより良い意思決定を支援することができる。
本研究では,Tadpoleの平均精度が3.2%,UKBBジェンダーが1.6%,UKBB年齢予測タスクが2%と,比較方法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-29T13:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。