論文の概要: Reducing Annotation Burden: Exploiting Image Knowledge for Few-Shot Medical Video Object Segmentation via Spatiotemporal Consistency Relearning
- arxiv url: http://arxiv.org/abs/2503.14958v1
- Date: Wed, 19 Mar 2025 07:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:39.228214
- Title: Reducing Annotation Burden: Exploiting Image Knowledge for Few-Shot Medical Video Object Segmentation via Spatiotemporal Consistency Relearning
- Title(参考訳): アノテーションバーデンの削減:時空間一貫性の再学習によるFew-Shotの医用ビデオオブジェクトセグメンテーションのための画像知識の爆発
- Authors: Zixuan Zheng, Yilei Shi, Chunlei Li, Jingliang Hu, Xiao Xiang Zhu, Lichao Mou,
- Abstract要約: 少数のビデオフレームからのみ利用し,既存のラベル付き画像を利用して,コストのかかるビデオアノテーションを最小化する,極めて低データ方式について検討する。
本モデルでは, 医用画像と希少な医用画像とのギャップを埋めて, この低データ体制下での強力な映像セグメンテーション性能を実現する。
- 参考スコア(独自算出の注目度): 20.458912966915843
- License:
- Abstract: Few-shot video object segmentation aims to reduce annotation costs; however, existing methods still require abundant dense frame annotations for training, which are scarce in the medical domain. We investigate an extremely low-data regime that utilizes annotations from only a few video frames and leverages existing labeled images to minimize costly video annotations. Specifically, we propose a two-phase framework. First, we learn a few-shot segmentation model using labeled images. Subsequently, to improve performance without full supervision, we introduce a spatiotemporal consistency relearning approach on medical videos that enforces consistency between consecutive frames. Constraints are also enforced between the image model and relearning model at both feature and prediction levels. Experiments demonstrate the superiority of our approach over state-of-the-art few-shot segmentation methods. Our model bridges the gap between abundant annotated medical images and scarce, sparsely labeled medical videos to achieve strong video segmentation performance in this low data regime. Code is available at https://github.com/MedAITech/RAB.
- Abstract(参考訳): ビデオオブジェクトセグメンテーションは、アノテーションのコスト削減を目的としているが、既存の手法では、医用領域では不十分な、豊富なフレームアノテーションを必要とする。
ごく少数のビデオフレームからのアノテーションを利用して,既存のラベル付き画像を利用して,コストのかかるビデオアノテーションを最小化する,極めて低データ方式について検討する。
具体的には,2段階の枠組みを提案する。
まず,ラベル付き画像を用いて数ショットのセグメンテーションモデルを学習する。
次に, 連続するフレーム間の一貫性を強制する時空間整合性再学習手法を提案する。
また、特徴レベルと予測レベルの両方で、イメージモデルと再学習モデルの間に制約が課される。
実験は、最先端のショットセグメンテーション法よりも、我々のアプローチの方が優れていることを示す。
本モデルでは, 豊富な注釈付医用画像と希少な医療用ビデオとのギャップを埋めて, この低データ体制下での強力な映像セグメンテーション性能を実現する。
コードはhttps://github.com/MedAITech/RAB.comで入手できる。
関連論文リスト
- Is Two-shot All You Need? A Label-efficient Approach for Video
Segmentation in Breast Ultrasound [4.113689581316844]
BUSビデオセグメンテーションのための新しい2ショットトレーニングパラダイムを提案する。
自由範囲の時空一貫性をキャプチャできるだけでなく、ソース依存の拡張スキームも利用できる。
その結果、トレーニングラベルは1.9%しか与えられていないが、完全に注釈付けされたものと比較するとパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-02-07T14:47:08Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Correlation-aware active learning for surgery video segmentation [13.327429312047396]
本研究は,手術ビデオセグメンテーション,COWAL,Correlation-aWare Active Learningのための新しいAL戦略を提案する。
提案手法では、コントラスト学習を用いて微調整された遅延空間に画像を投影し、ビデオフレームの局所クラスタから一定数の代表画像を選択する。
手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-15T09:30:52Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Few Shot Medical Image Segmentation with Cross Attention Transformer [30.54965157877615]
我々は、CAT-Netと呼ばれる、数ショットの医用画像セグメンテーションのための新しいフレームワークを提案する。
提案するネットワークは,サポート画像とクエリ画像の相関関係を抽出し,有用なフォアグラウンド情報のみに限定する。
提案手法を,Abd-CT,Abd-MRI,Card-MRIの3つの公開データセットで検証した。
論文 参考訳(メタデータ) (2023-03-24T09:10:14Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文 参考訳(メタデータ) (2021-03-23T23:20:46Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。