論文の概要: Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.24368v1
- Date: Mon, 31 Mar 2025 17:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:34:55.645101
- Title: Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation
- Title(参考訳): リアルタイム超音波画像分割のための視覚基礎モデルの適用
- Authors: Xiaoran Zhang, Eric Z. Chen, Lin Zhao, Xiao Chen, Yikang Liu, Boris Maihe, James S. Duncan, Terrence Chen, Shanhui Sun,
- Abstract要約: 既存の超音波セグメンテーション法は、しばしば新しいタスクへの適応性に苦しむ。
視覚基盤モデルHieraを応用した適応型フレームワークを導入し,マルチスケールな特徴を抽出する。
これらのリッチな機能は、精密で堅牢なセグメンテーションを生成するためにデコードされる。
- 参考スコア(独自算出の注目度): 20.009670139005085
- License:
- Abstract: We propose a novel approach that adapts hierarchical vision foundation models for real-time ultrasound image segmentation. Existing ultrasound segmentation methods often struggle with adaptability to new tasks, relying on costly manual annotations, while real-time approaches generally fail to match state-of-the-art performance. To overcome these limitations, we introduce an adaptive framework that leverages the vision foundation model Hiera to extract multi-scale features, interleaved with DINOv2 representations to enhance visual expressiveness. These enriched features are then decoded to produce precise and robust segmentation. We conduct extensive evaluations on six public datasets and one in-house dataset, covering both cardiac and thyroid ultrasound segmentation. Experiments show that our approach outperforms state-of-the-art methods across multiple datasets and excels with limited supervision, surpassing nnUNet by over 20\% on average in the 1\% and 10\% data settings. Our method achieves $\sim$77 FPS inference speed with TensorRT on a single GPU, enabling real-time clinical applications.
- Abstract(参考訳): リアルタイム超音波画像分割のための階層的視覚基盤モデルに適応する新しい手法を提案する。
既存の超音波セグメンテーション法は、しばしば新しいタスクへの適応性に苦慮し、コストのかかる手作業によるアノテーションに依存している。
これらの制約を克服するために,視覚基盤モデルHieraを活用して,DINOv2表現とインターリーブしたマルチスケール特徴を抽出し,視覚表現性を高める適応フレームワークを提案する。
これらのリッチな機能は、精密で堅牢なセグメンテーションを生成するためにデコードされる。
6つの公開データセットと1つの社内データセットを広範囲に評価し,心臓と甲状腺のセグメンテーションについて検討した。
実験の結果,本手法は複数のデータセットにまたがる最先端の手法よりも優れていて,監視が限られており,平均1\%と10\%のデータ設定において,nnUNetを20倍以上上回っていることがわかった。
提案手法は,1つのGPU上でTensorRTを用いた$\sim$77 FPS推論速度を実現し,リアルタイム臨床応用を実現する。
関連論文リスト
- Tuning Vision Foundation Model via Test-Time Prompt-Guided Training for VFSS Segmentations [1.8142185304787555]
本稿では,全アノテーションを必要とせず,下流データセット上での基礎モデルの性能を向上させる新しいテストタイムトレーニングパラダイムを提案する。
具体的には、テスト時間半自己指導型トレーニングタスクを誘導するために、簡単なポイントプロンプトを用いる。
このアプローチは、アノテーションの取得が時間集約的かつ高価である医療画像分野の課題に、直接取り組む。
論文 参考訳(メタデータ) (2025-01-30T16:48:02Z) - Self-adaptive vision-language model for 3D segmentation of pulmonary artery and vein [18.696258519327095]
本稿では,言語誘導型自己適応型クロスアテンション・フュージョン・フレームワークを提案する。
提案手法は,3次元CTスキャンのセグメンテーションを生成するための強力な特徴抽出器として,事前訓練したCLIPを採用している。
これまでで最大の肺動脈ベインCTデータセットである局所的データセットを用いて,本手法を広範囲に検証した。
論文 参考訳(メタデータ) (2025-01-07T12:03:02Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Semantic Segmentation Refiner for Ultrasound Applications with Zero-Shot Foundation Models [1.8142288667655782]
本稿では,抽象的な形状を分割するセグメンテーション基礎モデルの能力を利用した,プロンプトレスセグメンテーション手法を提案する。
本手法の利点は,小型筋骨格超音波画像データセットを用いた実験で明らかにされた。
論文 参考訳(メタデータ) (2024-04-25T04:21:57Z) - ARHNet: Adaptive Region Harmonization for Lesion-aware Augmentation to
Improve Segmentation Performance [61.04246102067351]
本研究では,合成画像をよりリアルに見せるために,前景調和フレームワーク(ARHNet)を提案する。
実画像と合成画像を用いたセグメンテーション性能の向上に本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-02T10:39:29Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。