論文の概要: Exploring Relations in Untrimmed Videos for Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2008.02711v1
- Date: Thu, 6 Aug 2020 15:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:19:08.570949
- Title: Exploring Relations in Untrimmed Videos for Self-Supervised Learning
- Title(参考訳): 自己監督型学習のための未編集映像の関連性を探る
- Authors: Dezhao Luo, Bo Fang, Yu Zhou, Yucan Zhou, Dayan Wu, Weiping Wang
- Abstract要約: 既存の自己教師付き学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
非時間ビデオ(ERUV)における探索関係(Exploring Relations in Untemporal Videos)と呼ばれる,新たな自己管理手法を提案する。
ERUVはよりリッチな表現を学習することができ、最先端の自己管理手法よりも優れたマージンを持つ。
- 参考スコア(独自算出の注目度): 17.670226952829506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video self-supervised learning methods mainly rely on trimmed videos
for model training. However, trimmed datasets are manually annotated from
untrimmed videos. In this sense, these methods are not really self-supervised.
In this paper, we propose a novel self-supervised method, referred to as
Exploring Relations in Untrimmed Videos (ERUV), which can be straightforwardly
applied to untrimmed videos (real unlabeled) to learn spatio-temporal features.
ERUV first generates single-shot videos by shot change detection. Then a
designed sampling strategy is used to model relations for video clips. The
strategy is saved as our self-supervision signals. Finally, the network learns
representations by predicting the category of relations between the video
clips. ERUV is able to compare the differences and similarities of videos,
which is also an essential procedure for action and video related tasks. We
validate our learned models with action recognition and video retrieval tasks
with three kinds of 3D CNNs. Experimental results show that ERUV is able to
learn richer representations and it outperforms state-of-the-art
self-supervised methods with significant margins.
- Abstract(参考訳): 既存の自己教師型学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
しかし、トリミングされたデータセットは、トリミングされていないビデオから手動で注釈付けされる。
この意味では、これらの手法は実際には自己管理的ではない。
本稿では,未編集ビデオ(実際の未収録ビデオ)に直接適用して時空間的特徴を学習する,新たな自己教師手法,ERUV(Exploring Relations in Untrimmed Videos)を提案する。
ERUVは最初、ショットチェンジ検出によってシングルショットビデオを生成する。
次に、ビデオクリップの関係をモデル化するための設計されたサンプリング戦略を用いる。
戦略は自己監視信号として保存される。
最後に、ネットワークは、ビデオクリップ間の関係のカテゴリを予測することによって表現を学習する。
ERUVはビデオの違いと類似性を比較することができる。
3種類の3d cnnを用いて,行動認識と映像検索タスクで学習モデルを検証する。
実験結果から,ERUVはよりリッチな表現を学習でき,最先端の自己教師手法よりも優れたマージンを持つことが示された。
関連論文リスト
- AICL: Action In-Context Learning for Video Diffusion Model [124.39948693332552]
本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。
大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2024-03-18T07:41:19Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。