論文の概要: Self-Supervised Learning for Videos: A Survey
- arxiv url: http://arxiv.org/abs/2207.00419v3
- Date: Wed, 19 Jul 2023 16:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 18:22:10.387236
- Title: Self-Supervised Learning for Videos: A Survey
- Title(参考訳): ビデオのための自己監督型学習: 調査
- Authors: Madeline C. Schiappa and Yogesh S. Rawat and Mubarak Shah
- Abstract要約: 自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
- 参考スコア(独自算出の注目度): 70.37277191524755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable success of deep learning in various domains relies on the
availability of large-scale annotated datasets. However, obtaining annotations
is expensive and requires great effort, which is especially challenging for
videos. Moreover, the use of human-generated annotations leads to models with
biased learning and poor domain generalization and robustness. As an
alternative, self-supervised learning provides a way for representation
learning which does not require annotations and has shown promise in both image
and video domains. Different from the image domain, learning video
representations are more challenging due to the temporal dimension, bringing in
motion and other environmental dynamics. This also provides opportunities for
video-exclusive ideas that advance self-supervised learning in the video and
multimodal domain. In this survey, we provide a review of existing approaches
on self-supervised learning focusing on the video domain. We summarize these
methods into four different categories based on their learning objectives: 1)
pretext tasks, 2) generative learning, 3) contrastive learning, and 4)
cross-modal agreement. We further introduce the commonly used datasets,
downstream evaluation tasks, insights into the limitations of existing works,
and the potential future directions in this area.
- Abstract(参考訳): さまざまな領域におけるディープラーニングの顕著な成功は、大規模な注釈付きデータセットの可用性に依存している。
しかし、アノテーションの取得は高価で多大な労力を要するため、ビデオでは特に難しい。
さらに、人為的なアノテーションの使用は、バイアス学習と貧弱なドメインの一般化と堅牢性を持つモデルにつながる。
代わりに、自己教師付き学習は、アノテーションを必要とせず、画像領域とビデオ領域の両方で約束を示す表現学習の方法を提供する。
画像領域と異なり、時間次元による映像表現の学習はより困難であり、動きやその他の環境力学をもたらす。
これはまた、ビデオおよびマルチモーダル領域における自己教師型学習を促進するビデオ排他的アイデアの機会を提供する。
本稿では,ビデオ領域に着目した自己教師付き学習における既存のアプローチについて概観する。
これらの方法を学習目標に基づいて4つのカテゴリにまとめる。
1)プレテキストタスク。
2)生成学習
3)対照的な学習,そして
4) クロスモーダル合意。
さらに,一般的なデータセット,ダウンストリーム評価タスク,既存の作業の限界に対する洞察,この分野の今後の方向性についても紹介する。
関連論文リスト
- CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Towards Contrastive Learning in Music Video Domain [46.29203572184694]
我々は、オーディオとビデオのモダリティのためのデュアルエンコーダを作成し、双方向のコントラスト損失を用いてトレーニングする。
実験では、50万曲のミュージックビデオを含む業界データセットと、公開ミリオンソングデータセットを使用します。
この結果から, コントラスト的な微調整のない事前学習ネットワークは, 両タスクで評価した場合に, コントラスト的な学習手法より優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-01T09:08:21Z) - A Large-Scale Analysis on Self-Supervised Video Representation Learning [15.205738030787673]
本研究では,1)データセットのサイズ,2)複雑性,3)データ分布,4)データノイズ,5)機能解析の5つの側面について検討する。
この研究から得られた興味深い洞察は、事前学習とターゲットデータセット、プレテキストタスク、モデルアーキテクチャの様々な特性にまたがる。
本稿では,限られたトレーニングデータを必要とするアプローチを提案し,従来の10倍の事前学習データを用いた最先端のアプローチより優れた手法を提案する。
論文 参考訳(メタデータ) (2023-06-09T16:27:14Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。