論文の概要: Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis
- arxiv url: http://arxiv.org/abs/2506.08849v1
- Date: Tue, 10 Jun 2025 14:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.651928
- Title: Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis
- Title(参考訳): 次世代医用超音波画像解析のための視覚言語基礎モデルの適用
- Authors: Jingguo Qu, Xinyang Han, Tonghuan Xiao, Jia Ai, Juan Wu, Tong Zhao, Jing Qin, Ann Dorothy King, Winnie Chiu-Wing Chu, Jing Cai, Michael Tin-Cheung Yingınst,
- Abstract要約: 視覚言語基礎モデルは様々なコンピュータビジョンアプリケーションで優れている。
視覚言語基礎モデルのためのドメイン適応手法を開発した。
本手法は,超音波画像解析のための視覚言語基盤モデルの性能を効果的に向上させることができる。
- 参考スコア(独自算出の注目度): 12.112488943958947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical ultrasonography is an essential imaging technique for examining superficial organs and tissues, including lymph nodes, breast, and thyroid. It employs high-frequency ultrasound waves to generate detailed images of the internal structures of the human body. However, manually contouring regions of interest in these images is a labor-intensive task that demands expertise and often results in inconsistent interpretations among individuals. Vision-language foundation models, which have excelled in various computer vision applications, present new opportunities for enhancing ultrasound image analysis. Yet, their performance is hindered by the significant differences between natural and medical imaging domains. This research seeks to overcome these challenges by developing domain adaptation methods for vision-language foundation models. In this study, we explore the fine-tuning pipeline for vision-language foundation models by utilizing large language model as text refiner with special-designed adaptation strategies and task-driven heads. Our approach has been extensively evaluated on six ultrasound datasets and two tasks: segmentation and classification. The experimental results show that our method can effectively improve the performance of vision-language foundation models for ultrasound image analysis, and outperform the existing state-of-the-art vision-language and pure foundation models. The source code of this study is available at \href{https://github.com/jinggqu/NextGen-UIA}{GitHub}.
- Abstract(参考訳): 医用超音波検査は, リンパ節, 乳腺, 甲状腺などの表在臓器や組織を検査するための重要な画像診断技術である。
高周波超音波を用いて人体の内部構造の詳細な画像を生成する。
しかし、これらの画像に対する関心領域を手動で整理することは、専門知識を必要とする労働集約的な作業であり、多くの場合、個人間の一貫性のない解釈をもたらす。
様々なコンピュータビジョン応用に優れる視覚言語基礎モデルでは,超音波画像解析を向上する新たな機会が提示されている。
しかし、それらのパフォーマンスは、自然画像領域と医療画像領域の重大な違いによって妨げられている。
本研究は、視覚言語基礎モデルのためのドメイン適応手法を開発することにより、これらの課題を克服することを目的とする。
本研究では,大規模言語モデルを用いた視覚言語基礎モデルの微調整パイプラインを,特殊設計した適応戦略とタスク駆動型ヘッドを用いたテキストリファインダとして活用する。
提案手法は6つの超音波データセットと2つのタスク(セグメンテーションと分類)で広く評価されている。
実験結果から,超音波画像解析のための視覚言語基礎モデルの性能を効果的に向上し,既存の最先端の視覚言語モデルや純粋基礎モデルよりも優れていることが示された。
この研究のソースコードは \href{https://github.com/jinggqu/NextGen-UIA}{GitHub} で公開されている。
関連論文リスト
- EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance [79.66329903007869]
本稿では,プローブ誘導のためのモーションアウェアな世界モデリングフレームワークであるEchoWorldを紹介する。
解剖学的な知識と運動によって引き起こされる視覚力学を符号化する。
200以上の定期的なスキャンから100万枚以上の超音波画像で訓練されている。
論文 参考訳(メタデータ) (2025-04-17T16:19:05Z) - RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
本手法の有効性を医用撮像皮膚データセットに示し, 生成した画像から生成品質が向上し, 微調整された安定拡散に対するプロンプトとの整合性が向上することを示した。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - Semantic Segmentation Refiner for Ultrasound Applications with Zero-Shot Foundation Models [1.8142288667655782]
本稿では,抽象的な形状を分割するセグメンテーション基礎モデルの能力を利用した,プロンプトレスセグメンテーション手法を提案する。
本手法の利点は,小型筋骨格超音波画像データセットを用いた実験で明らかにされた。
論文 参考訳(メタデータ) (2024-04-25T04:21:57Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Exploring scalable medical image encoders beyond text supervision [42.86944965225041]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-07-24T16:13:43Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Ultrasound Signal Processing: From Models to Deep Learning [64.56774869055826]
医用超音波画像は、信頼性と解釈可能な画像再構成を提供するために、高品質な信号処理に大きく依存している。
データ駆動方式で最適化されたディープラーニングベースの手法が人気を集めている。
比較的新しいパラダイムは、データ駆動型ディープラーニングの活用とドメイン知識の活用という2つのパワーを組み合わせたものだ。
論文 参考訳(メタデータ) (2022-04-09T13:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。