論文の概要: Towards Better Ultrasound Video Segmentation Foundation Model: An Empirical study on SAM2 Finetuning from Data Perspective
- arxiv url: http://arxiv.org/abs/2511.05731v1
- Date: Fri, 07 Nov 2025 21:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.553241
- Title: Towards Better Ultrasound Video Segmentation Foundation Model: An Empirical study on SAM2 Finetuning from Data Perspective
- Title(参考訳): より良い超音波ビデオセグメンテーション基礎モデルに向けて:データから見たSAM2ファインタニングの実証的研究
- Authors: Xing Yao, Ahana Gangopadhyay, Hsi-Ming Chang, Ravi Soni,
- Abstract要約: 超音波ビデオセグメンテーションにおけるSAM2適応について,データ中心による検討を行った。
トレーニングセットのサイズ、ビデオの長さ、拡張スキームが適応性能にどのように影響するかを分析する。
- 参考スコア(独自算出の注目度): 0.7629717457706325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ultrasound (US) video segmentation remains a challenging problem due to strong inter- and intra-dataset variability, motion artifacts, and limited annotated data. Although foundation models such as Segment Anything Model 2 (SAM2) demonstrate strong zero-shot and prompt-guided segmentation capabilities, their performance deteriorates substantially when transferred to medical imaging domains. Current adaptation studies mainly emphasize architectural modifications, while the influence of data characteristics and training regimes has not been systematically examined. In this study, we present a comprehensive, data-centric investigation of SAM2 adaptation for ultrasound video segmentation. We analyze how training-set size, video duration, and augmentation schemes affect adaptation performance under three paradigms: task-specific fine-tuning, intermediate adaptation, and multi-task joint training, across five SAM2 variants and multiple prompting modes. We further design six ultrasound-specific augmentations, assessing their effect relative to generic strategies. Experiments on three representative ultrasound datasets reveal that data scale and temporal context play a more decisive role than model architecture or initialization. Moreover, joint training offers an efficient compromise between modality alignment and task specialization. This work aims to provide empirical insights for developing efficient, data-aware adaptation pipelines for SAM2 in ultrasound video analysis.
- Abstract(参考訳): 超音波(US)ビデオセグメンテーションは、強いデータ間およびデータセット内変動、モーションアーティファクト、限られた注釈付きデータのために、依然として難しい問題である。
Segment Anything Model 2 (SAM2) のような基礎モデルは、強いゼロショットと即時誘導のセグメンテーション能力を示すが、医療画像領域に移動すると、その性能は著しく低下する。
現在の適応研究は、データ特性や訓練体制の影響を体系的に検討していないが、主にアーキテクチャの変更に焦点を当てている。
本研究では,超音波ビデオセグメンテーションにおけるSAM2適応の包括的,データ中心的な検討について述べる。
タスク固有の微調整、中間適応、マルチタスク共同訓練の3つのパラダイムにおいて、SAM2の5つの変種および複数のプロンプトモードにおいて、トレーニングセットのサイズ、ビデオ持続時間、拡張スキームが適応性能にどのように影響するかを分析する。
さらに6つの超音波特異的増強法を設計し,その効果を汎用戦略と比較した。
3つの代表的な超音波データセットの実験により、データスケールと時間コンテキストがモデルアーキテクチャや初期化よりも決定的な役割を果たすことが明らかになった。
さらに、ジョイントトレーニングは、モダリティアライメントとタスク特殊化の効果的な妥協を提供する。
本研究の目的は、超音波ビデオ解析におけるSAM2の効率的なデータ認識適応パイプライン開発のための実証的な洞察を提供することである。
関連論文リスト
- SAM2-3dMed: Empowering SAM2 for 3D Medical Image Segmentation [7.646703242040606]
SAM2-3dMed を3次元医用画像に応用した SAM2-3dMed を提案する。
スライス相対位置予測(SRPP)モジュールは、双方向のスライス間の依存関係を明示的にモデル化する。
境界検出(Bundary Detection, BD)モジュールは、重要な臓器と組織の境界に沿ったセグメンテーションの精度を高める。
提案手法は,3次元医用画像のセグメンテーション性能を向上するだけでなく,映像中心の基礎モデルを空間データに適用するための一般的なパラダイムを提供する。
論文 参考訳(メタデータ) (2025-10-10T03:23:05Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Differential-UMamba: Rethinking Tumor Segmentation Under Limited Data Scenarios [3.1231963031043786]
Diff-UMambaは、UNetフレームワークとmambaメカニズムを組み合わせて長距離依存関係をモデル化する新しいアーキテクチャである。
Diff-UMambaの中心部にはノイズ低減モジュールがあり、ノイズや無関係なアクティベーションを抑制するための信号差分戦略を採用している。
このアーキテクチャは、特に低データ設定において、セグメンテーションの精度と堅牢性を改善する。
論文 参考訳(メタデータ) (2025-07-24T08:23:11Z) - The Efficacy of Semantics-Preserving Transformations in Self-Supervised Learning for Medical Ultrasound [60.80780313225093]
本研究は, 肺超音波の自己教師あり学習におけるデータ拡張と前処理方略の影響を系統的に検討した。
画像領域に共通して使用されるベースラインパイプライン、超音波用に設計された新しいセマンティック保存パイプライン、両方のパイプラインから最も効果的な変換の蒸留セットの3つのデータ拡張パイプラインが評価された。
論文 参考訳(メタデータ) (2025-04-10T16:26:47Z) - Mamba-3D as Masked Autoencoders for Accurate and Data-Efficient Analysis of Medical Ultrasound Videos [11.589704875476325]
ビデオデータの3次元構造を保存したデータ効率の良いビジョンマンバネットワークであるE-ViM$3$を紹介する。
本モデルでは, 臨床応用への潜在的な影響を明らかにするとともに, ラベルの限定による競争性能の向上を図っている。
論文 参考訳(メタデータ) (2025-03-26T05:54:13Z) - Enhanced segmentation of femoral bone metastasis in CT scans of patients using synthetic data generation with 3D diffusion models [0.06700983301090582]
本稿では,3次元拡散確率モデル(DDPM)を用いた自動データパイプラインを提案する。
5675巻を新たに作成し,実データと合成データに基づいて3次元U-Netセグメンテーションモデルを訓練し,セグメンテーション性能を比較した。
論文 参考訳(メタデータ) (2024-09-17T09:21:19Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Deep models for stroke segmentation: do complex architectures always perform better? [1.4651272514940197]
ストロークセグメンテーションは脳卒中患者の診断と治療において重要な役割を担っている。
一般的な医用画像分割のためのディープモデルが導入された。
本研究では,最近提案された4種類の深部モデルを選択し,脳卒中セグメンテーションの性能評価を行った。
論文 参考訳(メタデータ) (2024-03-25T20:44:01Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。