論文の概要: Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency
- arxiv url: http://arxiv.org/abs/2204.03017v1
- Date: Wed, 6 Apr 2022 18:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:35:45.513769
- Title: Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency
- Title(参考訳): untrimmed videoからの学習:階層的一貫性を備えた自己教師付きビデオ表現学習
- Authors: Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Yi Xu, Xiang Wang, Mingqian
Tang, Changxin Gao, Rong Jin, Nong Sang
- Abstract要約: 教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
- 参考スコア(独自算出の注目度): 60.756222188023635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural videos provide rich visual contents for self-supervised learning. Yet
most existing approaches for learning spatio-temporal representations rely on
manually trimmed videos, leading to limited diversity in visual patterns and
limited performance gain. In this work, we aim to learn representations by
leveraging more abundant information in untrimmed videos. To this end, we
propose to learn a hierarchy of consistencies in videos, i.e., visual
consistency and topical consistency, corresponding respectively to clip pairs
that tend to be visually similar when separated by a short time span and share
similar topics when separated by a long time span. Specifically, a hierarchical
consistency learning framework HiCo is presented, where the visually consistent
pairs are encouraged to have the same representation through contrastive
learning, while the topically consistent pairs are coupled through a topical
classifier that distinguishes whether they are topic related. Further, we
impose a gradual sampling algorithm for proposed hierarchical consistency
learning, and demonstrate its theoretical superiority. Empirically, we show
that not only HiCo can generate stronger representations on untrimmed videos,
it also improves the representation quality when applied to trimmed videos.
This is in contrast to standard contrastive learning that fails to learn
appropriate representations from untrimmed videos.
- Abstract(参考訳): 自然ビデオは、自己監督学習のためのリッチな視覚コンテンツを提供する。
しかし、時空間表現を学習するための既存のアプローチのほとんどは、手動でトリミングされたビデオに依存しており、視覚パターンの多様性とパフォーマンスの向上が制限されている。
本研究では,未編集映像のより豊富な情報を活用することで表現の学習を目指す。
そこで本研究では,短い時間間隔で切り離すと視覚的に類似する傾向のあるクリップペアに対応する映像,すなわち視覚的一貫性とトピック的一貫性の階層を学習し,長い時間間隔で区切られた場合に類似したトピックを共有することを提案する。
具体的には、階層的な一貫性学習フレームワークHiCoを紹介し、視覚的に一貫したペアは対照的な学習を通じて同じ表現を推奨し、トポロジ的に一貫したペアはトピック関連かどうかを識別するトピック分類器を介して結合される。
さらに,階層的一貫性学習のための段階的サンプリングアルゴリズムを適用し,その理論的優越性を示す。
実験により,HiCoはトリミングされたビデオに強い表現を生成できるだけでなく,トリミングされたビデオに適用した場合の表現品質も向上することが示された。
これは標準のコントラスト学習とは対照的で、不適切なビデオから適切な表現を学ばない。
関連論文リスト
- Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - We Have So Much In Common: Modeling Semantic Relational Set Abstractions
in Videos [29.483605238401577]
本稿では,人間の学習にインスパイアされたビデオのセマンティック・リレーショナル・セットの抽象化を学習するためのアプローチを提案する。
視覚的特徴と自然言語の監督を組み合わせることで、一連のビデオにまたがる類似点のハイレベルな表現を生成する。
論文 参考訳(メタデータ) (2020-08-12T22:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。