論文の概要: RAU: Reference-based Anatomical Understanding with Vision Language Models
- arxiv url: http://arxiv.org/abs/2509.22404v1
- Date: Fri, 26 Sep 2025 14:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.504291
- Title: RAU: Reference-based Anatomical Understanding with Vision Language Models
- Title(参考訳): RAU:視覚言語モデルを用いた参照型解剖学的理解
- Authors: Yiwei Li, Yikang Liu, Jiaqi Guo, Lin Zhao, Zheyuan Zhang, Xiao Chen, Boris Mailhe, Ankush Mukherjee, Terrence Chen, Shanhui Sun,
- Abstract要約: 視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
- 参考スコア(独自算出の注目度): 26.06602931463068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anatomical understanding through deep learning is critical for automatic report generation, intra-operative navigation, and organ localization in medical imaging; however, its progress is constrained by the scarcity of expert-labeled data. A promising remedy is to leverage an annotated reference image to guide the interpretation of an unlabeled target. Although recent vision-language models (VLMs) exhibit non-trivial visual reasoning, their reference-based understanding and fine-grained localization remain limited. We introduce RAU, a framework for reference-based anatomical understanding with VLMs. We first show that a VLM learns to identify anatomical regions through relative spatial reasoning between reference and target images, trained on a moderately sized dataset. We validate this capability through visual question answering (VQA) and bounding box prediction. Next, we demonstrate that the VLM-derived spatial cues can be seamlessly integrated with the fine-grained segmentation capability of SAM2, enabling localization and pixel-level segmentation of small anatomical regions, such as vessel segments. Across two in-distribution and two out-of-distribution datasets, RAU consistently outperforms a SAM2 fine-tuning baseline using the same memory setup, yielding more accurate segmentations and more reliable localization. More importantly, its strong generalization ability makes it scalable to out-of-distribution datasets, a property crucial for medical image applications. To the best of our knowledge, RAU is the first to explore the capability of VLMs for reference-based identification, localization, and segmentation of anatomical structures in medical images. Its promising performance highlights the potential of VLM-driven approaches for anatomical understanding in automated clinical workflows.
- Abstract(参考訳): 深層学習による解剖学的理解は, 医療画像における自動レポート生成, 術中ナビゲーション, 臓器の局在化に重要であるが, 専門家ラベルデータの不足によってその進展は制限されている。
有望な治療法は、注釈付き参照画像を利用して、ラベルのないターゲットの解釈を導くことである。
近年の視覚言語モデル(VLM)は、非自明な視覚的推論を示すが、参照に基づく理解と微妙な局所化は限定的である。
VLMを用いた参照ベースの解剖学的理解のためのフレームワークであるRAUを紹介する。
まず, 基準画像と対象画像の相対的空間的推論により, 解剖学的領域の同定を学習し, 適度な大きさのデータセットで学習したことを示す。
視覚的質問応答(VQA)とバウンディングボックス予測により,この能力を検証した。
次に,VLM由来の空間的手がかりがSAM2の細粒度セグメンテーション機能とシームレスに統合できることを示し,血管セグメントなどの小解剖学的領域の局所化と画素レベルのセグメンテーションを可能にした。
2つの分散データセットと2つのアウト・オブ・ディストリビューションデータセットを通じて、RAUは、同じメモリ設定を使用してSAM2の微調整ベースラインを一貫して上回り、より正確なセグメンテーションとより信頼性の高いローカライゼーションをもたらす。
さらに重要なのは、その強力な一般化能力によって、医療画像アプリケーションに不可欠な特性である、配布外のデータセットにスケーラブルになることだ。
我々の知る限り、RAUは、医用画像中の解剖学的構造の基準ベース同定、局在化、セグメンテーションのためのVLMの能力を初めて探求した人物である。
その有望なパフォーマンスは、自動臨床ワークフローにおける解剖学的理解のためのVLM駆動アプローチの可能性を強調している。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Think as Cardiac Sonographers: Marrying SAM with Left Ventricular Indicators Measurements According to Clinical Guidelines [10.334018181732022]
心血管疾患の診断には左室(LV)測定が重要である。
ビジョンファインダオプションモデル(VFM)を豊富な知識で導入する必要がある。
本稿では,SAMの強力な視覚的理解とセグメンテーションとランドマークローカライゼーションタスクを同時に組み合わせたAutoSAMEという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-12T02:09:36Z) - Large Language Model Evaluated Stand-alone Attention-Assisted Graph Neural Network with Spatial and Structural Information Interaction for Precise Endoscopic Image Segmentation [16.773882069530426]
本研究では,空間グラフと構造グラフを融合したFOCUS-Medを提案する。
FOCUS-Medは、Dual Graph Convolutional Network (Dual-GCN)モジュールを統合し、コンテキスト空間および位相構造上の依存関係をキャプチャする。
公開ベンチマークの実験では、FOCUS-Medが5つの主要な指標で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-08-09T15:53:19Z) - NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding [51.63264715941068]
textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
論文 参考訳(メタデータ) (2025-08-06T05:44:01Z) - Robust Noisy Pseudo-label Learning for Semi-supervised Medical Image Segmentation Using Diffusion Model [5.158113225132093]
半教師付き医用画像セグメンテーションは、限られた注釈付きデータと豊富なラベルなしデータを利用して正確なセグメンテーションを実現することを目的としている。
既存の手法は、擬似ラベルが導入したノイズにより、潜在空間における意味分布を構成するのにしばしば苦労する。
提案手法は,プロトタイプに基づくコントラッシブコントラストの整合性を強制することにより,意味ラベルの遅延構造に制約を導入する。
論文 参考訳(メタデータ) (2025-07-22T10:21:55Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [46.99748372216857]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Generalizing Segmentation Foundation Model Under Sim-to-real Domain-shift for Guidewire Segmentation in X-ray Fluoroscopy [1.4353812560047192]
Sim-to-real ドメイン適応アプローチは、コスト効率の良いソリューションを提供するシミュレーションから合成データを利用する。
対象領域のアノテーションを使わずに、SAMを蛍光X線ガイドワイヤセグメント化に適応させる戦略を提案する。
提案手法は、事前訓練されたSAMと、最先端のドメイン適応技術の両方を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-10-09T21:59:48Z) - PCRLv2: A Unified Visual Information Preservation Framework for
Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。
また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。
提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文 参考訳(メタデータ) (2023-01-02T17:47:27Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。