論文の概要: Correlation-aware active learning for surgery video segmentation
- arxiv url: http://arxiv.org/abs/2311.08811v1
- Date: Wed, 15 Nov 2023 09:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:33:22.992551
- Title: Correlation-aware active learning for surgery video segmentation
- Title(参考訳): 手術ビデオセグメンテーションのための相関対応能動学習
- Authors: Fei Wu, Pablo Marquez-Neila, Mingyi Zheng, Hedyeh Rafii-Tari, Raphael
Sznitman
- Abstract要約: 本研究は,手術ビデオセグメンテーションのための新しいアクティブラーニング(AL)戦略を提案する。
我々のアプローチは、コントラスト学習を用いて微調整された潜在空間に画像を投影することである。
手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットに対して,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 13.327429312047396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation is a complex task that relies heavily on large amounts
of annotated image data. However, annotating such data can be time-consuming
and resource-intensive, especially in the medical domain. Active Learning (AL)
is a popular approach that can help to reduce this burden by iteratively
selecting images for annotation to improve the model performance. In the case
of video data, it is important to consider the model uncertainty and the
temporal nature of the sequences when selecting images for annotation. This
work proposes a novel AL strategy for surgery video segmentation, \COALSamp{},
COrrelation-aWare Active Learning. Our approach involves projecting images into
a latent space that has been fine-tuned using contrastive learning and then
selecting a fixed number of representative images from local clusters of video
frames. We demonstrate the effectiveness of this approach on two video datasets
of surgical instruments and three real-world video datasets. The datasets and
code will be made publicly available upon receiving necessary approvals.
- Abstract(参考訳): セマンティックセグメンテーションは、大量の注釈付き画像データに大きく依存する複雑なタスクである。
しかし、そのようなデータを注釈付けすることは、特に医療領域において、時間とリソースを消費する可能性がある。
アクティブラーニング(AL)は、アノテーションのイメージを反復的に選択してモデルのパフォーマンスを向上させることで、この負担を軽減するのに役立つ一般的なアプローチである。
ビデオデータの場合、アノテーションのための画像を選択する際に、シーケンスのモデル不確かさと時間的性質を考慮することが重要である。
本研究は手術ビデオセグメンテーションのための新しいAL戦略である \COALSamp{}, COrrelation-aWare Active Learningを提案する。
私たちのアプローチでは、コントラスト学習で微調整された潜在空間に画像を投影し、ビデオフレームのローカルクラスタから一定数の代表画像を選択します。
本手法の有効性を手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットで実証する。
データセットとコードは、必要な承認を受けると公開されます。
関連論文リスト
- Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - EISeg: An Efficient Interactive Segmentation Tool based on PaddlePaddle [7.588694189597639]
EISegは,画像分割アノテーションの効率を大幅に改善できるインタラクティブSEGmentationアノテーションツールである。
また、リモートセンシング、医用イメージング、産業品質検査、人間のセグメンテーション、ビデオセグメンテーションのための時間認識モデルなど、さまざまなドメイン固有モデルを提供する。
論文 参考訳(メタデータ) (2022-10-17T07:12:13Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Rethinking Interactive Image Segmentation: Feature Space Annotation [68.8204255655161]
本稿では,特徴空間投影による複数画像からの対話的・同時セグメントアノテーションを提案する。
本手法は,前景セグメンテーションデータセットにおける最先端手法の精度を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-01-12T10:13:35Z) - Deep Active Learning for Joint Classification & Segmentation with Weak
Annotator [22.271760669551817]
クラスアクティベーションマップ(CAM)のようなCNNの可視化と解釈手法は、一般的に、クラス予測に関連する画像領域を強調するために使用される。
本稿では,画素レベルのアノテーションを段階的に統合する能動的学習フレームワークを提案する。
提案手法は, ランダムなサンプル選択を用いることで, 最先端のCAMやAL手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2020-10-10T03:25:54Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。