論文の概要: Cycle-Contrast for Self-Supervised Video Representation Learning
- arxiv url: http://arxiv.org/abs/2010.14810v1
- Date: Wed, 28 Oct 2020 08:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 05:03:48.556861
- Title: Cycle-Contrast for Self-Supervised Video Representation Learning
- Title(参考訳): 自己監督型映像表現学習のためのサイクルコントラスト
- Authors: Quan Kong, Wenpeng Wei, Ziwei Deng, Tomoaki Yoshinaga, Tomokazu
Murakami
- Abstract要約: 本稿では,ビデオ表現を学習する新たな自己指導手法であるCCLについて述べる。
本手法では,R3Dアーキテクチャに基づく1つのネットワークからフレームとビデオの表現を学習する。
我々は,CCLが学習した映像表現が,映像理解の下流タスクにうまく移行できることを実証した。
- 参考スコア(独自算出の注目度): 10.395615031496064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Cycle-Contrastive Learning (CCL), a novel self-supervised method
for learning video representation. Following a nature that there is a belong
and inclusion relation of video and its frames, CCL is designed to find
correspondences across frames and videos considering the contrastive
representation in their domains respectively. It is different from recent
approaches that merely learn correspondences across frames or clips. In our
method, the frame and video representations are learned from a single network
based on an R3D architecture, with a shared non-linear transformation for
embedding both frame and video features before the cycle-contrastive loss. We
demonstrate that the video representation learned by CCL can be transferred
well to downstream tasks of video understanding, outperforming previous methods
in nearest neighbour retrieval and action recognition tasks on UCF101, HMDB51
and MMAct.
- Abstract(参考訳): 本稿では,ビデオ表現を学習する新たな自己指導手法であるCCLを提案する。
CCLは、ビデオとそのフレームの帰属関係と包摂関係があることから、それぞれのドメインにおけるコントラスト表現を考慮したフレームとビデオ間の対応を見つけるように設計されている。
フレームやクリップ間の対応を単に学習する最近のアプローチとは異なる。
本手法では,R3Dアーキテクチャに基づく単一ネットワークからフレームとビデオの表現を学習し,サイクルコントラスト損失の前にフレームとビデオの特徴を埋め込むための非線形変換を共用する。
我々は,cclが学習した映像表現を,ビデオ理解の下流タスクによく移行でき,最寄りの検索における従来の手法を上回り,utf101,hmdb51,mmactの動作認識タスクを上回ることができることを示す。
関連論文リスト
- Collaboratively Self-supervised Video Representation Learning for Action
Recognition [58.195372471117615]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,UCF101およびHMDB51データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。