論文の概要: Anatomy-VLM: A Fine-grained Vision-Language Model for Medical Interpretation
- arxiv url: http://arxiv.org/abs/2511.08402v1
- Date: Wed, 12 Nov 2025 01:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.798845
- Title: Anatomy-VLM: A Fine-grained Vision-Language Model for Medical Interpretation
- Title(参考訳): Anatomy-VLM:医学的解釈のための微細視線モデル
- Authors: Difei Gu, Yunhe Gao, Mu Zhou, Dimitris Metaxas,
- Abstract要約: マルチスケール情報を含む視覚言語モデルAnatomy-VLMを紹介する。
まず、医用画像全体から重要な解剖学的特徴をローカライズするモデルエンコーダを設計する。
第二に、これらの領域は文脈認識解釈のための構造化された知識に富んでいる。
第3に、モデルエンコーダは、多スケールの医療情報を整列して、臨床的に解釈可能な疾患予測を生成する。
- 参考スコア(独自算出の注目度): 12.39187443971813
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate disease interpretation from radiology remains challenging due to imaging heterogeneity. Achieving expert-level diagnostic decisions requires integration of subtle image features with clinical knowledge. Yet major vision-language models (VLMs) treat images as holistic entities and overlook fine-grained image details that are vital for disease diagnosis. Clinicians analyze images by utilizing their prior medical knowledge and identify anatomical structures as important region of interests (ROIs). Inspired from this human-centric workflow, we introduce Anatomy-VLM, a fine-grained, vision-language model that incorporates multi-scale information. First, we design a model encoder to localize key anatomical features from entire medical images. Second, these regions are enriched with structured knowledge for contextually-aware interpretation. Finally, the model encoder aligns multi-scale medical information to generate clinically-interpretable disease prediction. Anatomy-VLM achieves outstanding performance on both in- and out-of-distribution datasets. We also validate the performance of Anatomy-VLM on downstream image segmentation tasks, suggesting that its fine-grained alignment captures anatomical and pathology-related knowledge. Furthermore, the Anatomy-VLM's encoder facilitates zero-shot anatomy-wise interpretation, providing its strong expert-level clinical interpretation capabilities.
- Abstract(参考訳): 放射線学からの正確な疾患解釈は、画像の不均一性のため、依然として困難である。
専門家レベルの診断決定を達成するには、微妙な画像特徴と臨床知識を統合する必要がある。
しかし、主要な視覚言語モデル(VLM)は、画像を全体論的実体として扱い、病気の診断に不可欠なきめ細かい画像の詳細を見落としている。
臨床医は、以前の医学的知識を利用して画像を分析し、解剖学的構造を重要な関心領域(ROI)として同定する。
この人間中心のワークフローから着想を得たAnatomy-VLMは、マルチスケール情報を含む、きめ細かい視覚言語モデルである。
まず、医用画像全体から重要な解剖学的特徴をローカライズするモデルエンコーダを設計する。
第二に、これらの領域は文脈認識解釈のための構造化された知識に富んでいる。
最終的に、モデルエンコーダは、多スケールの医療情報を整列して、臨床的に解釈可能な疾患予測を生成する。
Anatomy-VLMは、イン・オブ・ディストリビューション・データセットとアウト・オブ・ディストリビューション・データセットの両方で優れたパフォーマンスを達成する。
また、下流画像分割作業における解剖-VLMの性能を検証し、その微粒なアライメントが解剖学的および病理学的知識を捉えることを示唆した。
さらに、解剖学-VLMのエンコーダはゼロショット解剖学の解釈を促進し、その強力な専門家レベルの臨床解釈能力を提供する。
関連論文リスト
- RAU: Reference-based Anatomical Understanding with Vision Language Models [26.06602931463068]
視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2025-09-26T14:32:03Z) - GRASPing Anatomy to Improve Pathology Segmentation [67.98147643529309]
本稿では,病的セグメンテーションモデルを強化するモジュール型プラグイン・アンド・プレイフレームワークGRASPを紹介する。
2つのPET/CTデータセット上でGRASPを評価し、系統的アブレーション研究を行い、フレームワークの内部動作について検討する。
論文 参考訳(メタデータ) (2025-08-05T12:26:36Z) - Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。
本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文 参考訳(メタデータ) (2025-04-20T01:54:18Z) - Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。
しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。
今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文 参考訳(メタデータ) (2025-01-24T14:50:48Z) - U-Net in Medical Image Segmentation: A Review of Its Applications Across Modalities [0.0]
人工知能(AI)と深層学習(DL)の進歩は医療画像セグメンテーション(MIS)に変化をもたらした
これらのモデルは、様々な画像モダリティにまたがる効率的で正確な画素単位の分類を可能にする。
本稿では,様々な医用画像技術について検討し,U-Netアーキテクチャとその適応について検討し,その応用方法について考察する。
論文 参考訳(メタデータ) (2024-12-03T08:11:06Z) - Advancing Medical Image Segmentation: Morphology-Driven Learning with Diffusion Transformer [4.672688418357066]
本稿では,雑音の存在下での頑健なセグメンテーションのためのトランスフォーマー拡散(DTS)モデルを提案する。
画像の形態的表現を解析する本モデルでは, 種々の医用画像モダリティにおいて, 従来のモデルよりも良好な結果が得られた。
論文 参考訳(メタデータ) (2024-08-01T07:35:54Z) - Anatomy-guided Pathology Segmentation [56.883822515800205]
本研究では, 解剖学的特徴と病理学的情報を組み合わせた汎用的セグメンテーションモデルを構築し, 病理学的特徴のセグメンテーション精度を高めることを目的とする。
我々の解剖学・病理学交流(APEx)訓練では,ヒト解剖学の問合せ表現に結合特徴空間をデコードする問合せベースのセグメンテーション変換器を用いている。
これにより、FDG-PET-CTとChest X-Rayの病理分類タスクにおいて、強力なベースライン法に比べて最大3.3%のマージンで、ボード全体で最高の結果を報告できる。
論文 参考訳(メタデータ) (2024-07-08T11:44:15Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。