論文の概要: Unsupervised Contrastive Learning of Image Representations from
Ultrasound Videos with Hard Negative Mining
- arxiv url: http://arxiv.org/abs/2207.13148v1
- Date: Tue, 26 Jul 2022 19:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:53:40.189567
- Title: Unsupervised Contrastive Learning of Image Representations from
Ultrasound Videos with Hard Negative Mining
- Title(参考訳): 硬負マイニングによる超音波映像からの画像表現の教師なしコントラスト学習
- Authors: Soumen Basu, Somanshu Singla, Mayank Gupta, Pratyaksha Rana, Pankaj
Gupta, Chetan Arora
- Abstract要約: 最先端学習技術(SOTA)は、ビデオ内のフレームを埋め込み空間の正のものとして捉えている。
自然のシーンビデオでは物体の複数のビューとは異なり、Ultrasound(US)ビデオは臓器の異なる2Dスライスをキャプチャする。
そこで我々は,リッチな画像表現を学習するために,そのようなフレームをハードネガティブとして利用する。
- 参考スコア(独自算出の注目度): 16.49278694957565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rich temporal information and variations in viewpoints make video data an
attractive choice for learning image representations using unsupervised
contrastive learning (UCL) techniques. State-of-the-art (SOTA) contrastive
learning techniques consider frames within a video as positives in the
embedding space, whereas the frames from other videos are considered negatives.
We observe that unlike multiple views of an object in natural scene videos, an
Ultrasound (US) video captures different 2D slices of an organ. Hence, there is
almost no similarity between the temporally distant frames of even the same US
video. In this paper we propose to instead utilize such frames as hard
negatives. We advocate mining both intra-video and cross-video negatives in a
hardness-sensitive negative mining curriculum in a UCL framework to learn rich
image representations. We deploy our framework to learn the representations of
Gallbladder (GB) malignancy from US videos. We also construct the first
large-scale US video dataset containing 64 videos and 15,800 frames for
learning GB representations. We show that the standard ResNet50 backbone
trained with our framework improves the accuracy of models pretrained with SOTA
UCL techniques as well as supervised pretrained models on ImageNet for the GB
malignancy detection task by 2-6%. We further validate the generalizability of
our method on a publicly available lung US image dataset of COVID-19
pathologies and show an improvement of 1.5% compared to SOTA. Source code,
dataset, and models are available at https://gbc-iitd.github.io/usucl.
- Abstract(参考訳): リッチな時間的情報と視点の変化により、ビデオデータは教師なしコントラスト学習(UCL)技術を用いて画像表現を学ぶための魅力的な選択となる。
最先端学習技術(SOTA)は、ビデオ内のフレームを埋め込み空間の正の値としてみなすが、他のビデオのフレームは負の値とみなす。
自然のシーンビデオにおける物体の複数のビューとは異なり、超音波(us)ビデオはオルガンの異なる2dスライスをキャプチャする。
したがって、同じアメリカのビデオの時間的に離れたフレームにはほとんど類似性はない。
本稿では,このようなフレームを硬い負として用いることを提案する。
UCLフレームワークにおいて,ビデオ内およびビデオ間の両方の負のマイニングをハードネスに敏感な負のマイニングカリキュラムに導入し,リッチな画像表現を学習することを提唱する。
我々はGallbladder(GB)の悪性度をUSビデオから学習するためにフレームワークをデプロイした。
gb表現を学習するための64ビデオと15,800フレームを含む,米国初の大規模ビデオデータセットも構築した。
我々のフレームワークでトレーニングされた標準のResNet50バックボーンは、SOTA UCL技術で事前訓練されたモデルの精度を向上し、GB悪性度検出タスクのためにImageNetで教師付き事前訓練されたモデルの2-6%を向上することを示した。
さらに,本手法の一般用肺画像データセットに対する一般化可能性について検証し,SOTAと比較して1.5%改善したことを示す。
ソースコード、データセット、モデルはhttps://gbc-iitd.github.io/usuclで入手できる。
関連論文リスト
- Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - Broaden Your Views for Self-Supervised Video Learning [97.52216510672251]
ビデオのための自己教師型学習フレームワークBraVeを紹介する。
BraVeでは、ビューの1つがビデオの狭い一時的なウィンドウにアクセスでき、もう1つのビューはビデオコンテンツに広くアクセスできます。
BraVeが標準ビデオおよびオーディオ分類ベンチマークで自己監督表現学習の最先端の結果を達成することを実証します。
論文 参考訳(メタデータ) (2021-03-30T17:58:46Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。