論文の概要: Self-Supervised Ultrasound-Video Segmentation with Feature Prediction and 3D Localised Loss
- arxiv url: http://arxiv.org/abs/2507.18424v1
- Date: Thu, 24 Jul 2025 14:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.734813
- Title: Self-Supervised Ultrasound-Video Segmentation with Feature Prediction and 3D Localised Loss
- Title(参考訳): 特徴予測と3次元局所損失を考慮した自己監督型超音波映像分割
- Authors: Edward Ellis, Robert Mendel, Andrew Bulpitt, Nasim Parsa, Michael F Byrne, Sharib Ali,
- Abstract要約: 自己教師付き学習(SSL)は、役に立たないデータを活用して有用な表現を学習することで、有望なソリューションを提供する。
ビデオデータに対するSSLの最近の開発には、機能予測のみに基づくフレームワークであるV-JEPAが含まれている。
本稿では,V-JEPA事前トレーニング中のVT表現の局所性を改善するために,新しい3次元局所化補助タスクを提案する。
- 参考スコア(独自算出の注目度): 0.6370702287904934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acquiring and annotating large datasets in ultrasound imaging is challenging due to low contrast, high noise, and susceptibility to artefacts. This process requires significant time and clinical expertise. Self-supervised learning (SSL) offers a promising solution by leveraging unlabelled data to learn useful representations, enabling improved segmentation performance when annotated data is limited. Recent state-of-the-art developments in SSL for video data include V-JEPA, a framework solely based on feature prediction, avoiding pixel level reconstruction or negative samples. We hypothesise that V-JEPA is well-suited to ultrasound imaging, as it is less sensitive to noisy pixel-level detail while effectively leveraging temporal information. To the best of our knowledge, this is the first study to adopt V-JEPA for ultrasound video data. Similar to other patch-based masking SSL techniques such as VideoMAE, V-JEPA is well-suited to ViT-based models. However, ViTs can underperform on small medical datasets due to lack of inductive biases, limited spatial locality and absence of hierarchical feature learning. To improve locality understanding, we propose a novel 3D localisation auxiliary task to improve locality in ViT representations during V-JEPA pre-training. Our results show V-JEPA with our auxiliary task improves segmentation performance significantly across various frozen encoder configurations, with gains up to 3.4\% using 100\% and up to 8.35\% using only 10\% of the training data.
- Abstract(参考訳): 超音波画像における大規模なデータセットの取得と注釈付けは、低コントラスト、高ノイズ、人工物への感受性のために困難である。
このプロセスには、かなりの時間と臨床の専門知識が必要です。
自己教師付き学習(SSL)は、意味のないデータを利用して有用な表現を学習し、注釈付きデータが制限された場合にセグメンテーション性能を向上させることで、有望なソリューションを提供する。
ビデオデータに対するSSLの最先端開発には、機能予測のみに基づくフレームワークであるV-JEPA、ピクセルレベルの再構築や負のサンプルの回避などがある。
我々は,V-JEPAは時間情報を有効に活用しながら,ノイズレベルの詳細に敏感でないため,超音波画像に適していると仮定する。
我々の知る限りでは、超音波ビデオデータにV-JEPAを採用した最初の研究である。
VideoMAEのような他のパッチベースのマスキングSSL技術と同様に、V-JEPAはViTベースのモデルに適している。
しかし、ViTは、誘導バイアスの欠如、空間的局所性の制限、階層的特徴学習の欠如により、小さな医療データセットでパフォーマンスが低下する可能性がある。
本稿では,V-JEPA事前学習におけるVT表現の局所性向上のための3次元局所化補助タスクを提案する。
以上の結果から,V-JEPAは各種冷凍エンコーダ構成のセグメンテーション性能を大幅に向上させ,100\%で最大3.4\%,トレーニングデータの10\%で最大8.35\%を得ることができた。
関連論文リスト
- The Efficacy of Semantics-Preserving Transformations in Self-Supervised Learning for Medical Ultrasound [60.80780313225093]
本研究は, 肺超音波の自己教師あり学習におけるデータ拡張と前処理方略の影響を系統的に検討した。
画像領域に共通して使用されるベースラインパイプライン、超音波用に設計された新しいセマンティック保存パイプライン、両方のパイプラインから最も効果的な変換の蒸留セットの3つのデータ拡張パイプラインが評価された。
論文 参考訳(メタデータ) (2025-04-10T16:26:47Z) - Mamba-3D as Masked Autoencoders for Accurate and Data-Efficient Analysis of Medical Ultrasound Videos [11.589704875476325]
ビデオデータの3次元構造を保存したデータ効率の良いビジョンマンバネットワークであるE-ViM$3$を紹介する。
本モデルでは, 臨床応用への潜在的な影響を明らかにするとともに, ラベルの限定による競争性能の向上を図っている。
論文 参考訳(メタデータ) (2025-03-26T05:54:13Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - EvLight++: Low-Light Video Enhancement with an Event Camera: A Large-Scale Real-World Dataset, Novel Method, and More [7.974102031202597]
EvLight++は、現実のシナリオで堅牢なパフォーマンスのために設計された、イベント誘導型低照度ビデオ拡張アプローチである。
EvLight++は1.37dBと3.71dBの2つのイメージベースとビデオベースの両方で大幅に性能が向上した。
論文 参考訳(メタデータ) (2024-08-29T04:30:31Z) - Leveraging Self-Supervised Learning for Fetal Cardiac Planes Classification using Ultrasound Scan Videos [4.160910038127896]
自己教師付き学習(SSL)メソッドは、限られた注釈付きデータで状況に対処できるので人気がある。
本研究では, 再構成, コントラスト損失, 蒸留, 情報理論に基づく7つのSSL手法について検討し, 大規模な米国データセット上で広く評価する。
我々の第一の観察は、SSLトレーニングでは、データセットの分散がサイズよりも重要であることを示している。
論文 参考訳(メタデータ) (2024-07-31T16:47:21Z) - A Novel Transformer-Based Self-Supervised Learning Method to Enhance Photoplethysmogram Signal Artifact Detection [0.0699049312989311]
本研究は、自己教師付き学習(SSL)を用いて、このデータから潜伏した特徴を抽出することにより、豊富なラベル付きデータの未利用に対処する。
実験の結果,SSLはTransformerモデルの表現学習能力を大幅に向上させることがわかった。
このアプローチは、注釈付きデータがしばしば制限されるPICU環境において、より広範なアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2024-01-02T04:00:48Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Medical Instrument Segmentation in 3D US by Hybrid Constrained
Semi-Supervised Learning [62.13520959168732]
3DUSにおける楽器セグメンテーションのための半教師付き学習フレームワークを提案する。
SSL学習を実現するため、Dual-UNetが提案されている。
提案手法は,Diceの約68.6%-69.1%,推定時間約1秒を実現している。
論文 参考訳(メタデータ) (2021-07-30T07:59:45Z) - Weakly-supervised Learning For Catheter Segmentation in 3D Frustum
Ultrasound [74.22397862400177]
超音波を用いた新しいカテーテルセグメンテーション法を提案する。
提案手法は,1ボリュームあたり0.25秒の効率で最先端の性能を実現した。
論文 参考訳(メタデータ) (2020-10-19T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。