論文の概要: EchoPilot: Training-Free Ultrasound Video Segmentation via Scale-Space Semantic Prompting and Reliability-Gated Memory
- arxiv url: http://arxiv.org/abs/2605.25944v1
- Date: Mon, 25 May 2026 15:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.431216
- Title: EchoPilot: Training-Free Ultrasound Video Segmentation via Scale-Space Semantic Prompting and Reliability-Gated Memory
- Title(参考訳): EchoPilot: スケール空間のセマンティックプロンプトと信頼性向上メモリによるトレーニング不要な超音波ビデオセグメンテーション
- Authors: Ruiqiang Xiao, Zhaohu Xing, Yijun Yang, Zhenyan Han, Weiming Wang, Kaishun Wu, Lei Zhu,
- Abstract要約: EchoPilotは、スパースファーストフレームインタラクション下での超音波ビデオセグメンテーションのためのトレーニング不要のフレームワークである。
セマンティックローカライゼーションのためのフリーズド医療ビジョン言語モデル、密集した幾何学的特徴抽出のためのビジョン基盤モデル、マスク予測と伝搬のためのプロンプト可能なビデオセグメンタを編成する。
671フレームのダイナミック胎児胎盤超音波ビデオセグメンテーションデータセットを提案する。
- 参考スコア(独自算出の注目度): 30.279337577859597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultrasound video segmentation is clinically valuable yet difficult due to speckle noise, weak boundaries, and rapid anatomical deformation. Recent promptable foundation models enable point-guided segmentation, but their direct deployment in ultrasound remains unreliable: a single point provides insufficient spatial context to resolve scale ambiguity, and greedy memory updates amplify early errors into severe temporal drift. We present EchoPilot, a training-free framework for ultrasound video segmentation under sparse first-frame interaction, requiring only a single point click and an anatomical category name. EchoPilot orchestrates a frozen medical vision-language model (VLM) for semantic localization, a vision foundation model (VFM) for dense geometric feature extraction, and a promptable video segmentor for mask prediction and propagation. To resolve initialization ambiguity, we propose Scale-Space Semantic Prompting, which first selects an optimal contextual view via a parameter-free S.E.E.D. (Semantic Energy-Entropy Density) criterion, and then synthesizes geometrically precise auxiliary point prompts from dense foundation features without additional user interaction. To reduce propagation drift, a Reliability-Gated Memory update is further introduced to selectively freeze the segmentor's memory bank under uncertain predictions, preventing error accumulation. We also contribute the first dynamic fetal placenta ultrasound video segmentation dataset with 671 annotated frames. Across three ultrasound video datasets, EchoPilot achieves state-of-the-art performance under the sparse-interactive setting, consistently outperforming training-free baselines and finetuned specialists.
- Abstract(参考訳): 超音波ビデオセグメンテーションは、スペックルノイズ、境界の弱い、解剖学的急激な変形のために臨床的に有用であるが困難である。
近年の急激な基礎モデルでは, 超音波の直接展開は信頼性が低いが, 単一点が空間的コンテキストに乏しく, スケールの曖昧さを解消し, 強欲なメモリ更新によって早期のエラーを重度の時間的ドリフトに増幅する。
単点クリックと解剖学的カテゴリ名しか必要とせず,一フレーム間相互作用の少ない超音波ビデオセグメンテーションのためのトレーニングフリーフレームワークであるEchoPilotを提案する。
EchoPilotは、セマンティックローカライゼーションのための凍結医療ビジョン言語モデル(VLM)、密集した幾何学的特徴抽出のためのビジョン基礎モデル(VFM)、マスク予測と伝播のためのプロンプト可能なビデオセグメンタを編成する。
まず、パラメータフリーなS.E.D.(セマンティックエネルギー-エントロピー密度)基準を用いて最適なコンテキストビューを選択し、次に、ユーザインタラクションを伴わずに、高密度な基礎特徴から幾何的に正確な補助点プロンプトを合成するスケール・スペース・セマンティック・プロンプトを提案する。
伝播ドリフトを低減するため、信頼性保証メモリ更新を導入し、不確実な予測の下でセグメントのメモリバンクを選択的に凍結し、エラーの蓄積を防止する。
また、671個の注釈付きフレームを用いた胎児胎盤超音波ビデオセグメンテーションデータセットを初めて提供した。
3つの超音波ビデオデータセット全体で、EchoPilotはスパース・インタラクティブな設定の下で最先端のパフォーマンスを達成し、トレーニングなしのベースラインと微調整されたスペシャリストを一貫して上回る。
関連論文リスト
- UniSurgSAM: A Unified Promptable Model for Reliable Surgical Video Segmentation [18.74680721916099]
視覚的,テキスト的,あるいは音声的プロンプトによる信頼性の高い手術ビデオ分割を可能にする統合PVOSモデルUniSurgSAMを提案する。
本稿では,幻覚の抑制を目的とした存在認識復号法,拡張シーケンス上のマスクドリフトを防止する境界認識長期追跡法,障害回復のための段階間のループを閉じる適応状態遷移の3つの重要な設計を提案する。
UniSurgSAMは、あらゆる急進的なモダリティと粒度にわたる最先端のパフォーマンスをリアルタイムで達成し、コンピュータ支援手術の実践的な基盤を提供する。
論文 参考訳(メタデータ) (2026-04-04T08:44:10Z) - Low-Rank-Modulated Functa: Exploring the Latent Space of Implicit Neural Representations for Interpretable Ultrasound Video Analysis [0.9413864081589388]
Inlicit Neural representations (INR) は連続的な画像表現学習のための強力なフレームワークとして登場した。
Functaベースのアプローチでは、各画像は、共有INRを条件付けし、強い再構成性能を実現する潜在変調ベクトルとして符号化される。
時間分解潜在空間における変調の低ランク適応を実現する新しいアーキテクチャであるLow-Rank-Modulated Functa (LRM-Functa)を提案する。
論文 参考訳(メタデータ) (2026-03-26T22:46:27Z) - Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation [21.117226880898418]
超音波ビデオセグメンテーションにおける雑音の頑健性を高めるための新しいフレームワークを提案する。
Dual Semantic-Aware Network (DSANet)は、局所的特徴とグローバル的特徴の相互意味認識を促進する。
我々のモデルは画素レベルの特徴依存を回避し、ビデオベース手法よりもはるかに高い推論FPSを実現し、画像ベースモデルを超えている。
論文 参考訳(メタデータ) (2025-07-10T05:41:17Z) - Free-VSC: Free Semantics from Visual Foundation Models for Unsupervised Video Semantic Compression [54.62883091552163]
教師なしビデオセマンティック圧縮(UVSC)は近年注目を集めている。
VFM から既製のリッチなセマンティクスを吸収することで UVSC タスクを強化することを提案する。
圧縮されたビデオと様々なVFM間のセマンティックスを柔軟に整合させるために,VFM固有のプロンプトによって補完されるVFMの共有セマンティックアライメント層を導入する。
論文 参考訳(メタデータ) (2024-09-18T05:55:01Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Weakly-supervised Learning For Catheter Segmentation in 3D Frustum
Ultrasound [74.22397862400177]
超音波を用いた新しいカテーテルセグメンテーション法を提案する。
提案手法は,1ボリュームあたり0.25秒の効率で最先端の性能を実現した。
論文 参考訳(メタデータ) (2020-10-19T13:56:22Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。