論文の概要: Memory-augmented Dense Predictive Coding for Video Representation
Learning
- arxiv url: http://arxiv.org/abs/2008.01065v1
- Date: Mon, 3 Aug 2020 17:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:51:44.159691
- Title: Memory-augmented Dense Predictive Coding for Video Representation
Learning
- Title(参考訳): 映像表現学習のためのメモリ拡張Dense Predictive Coding
- Authors: Tengda Han, Weidi Xie, Andrew Zisserman
- Abstract要約: 本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 103.69904379356413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is self-supervised learning from video, in
particular for representations for action recognition. We make the following
contributions: (i) We propose a new architecture and learning framework
Memory-augmented Dense Predictive Coding (MemDPC) for the task. It is trained
with a predictive attention mechanism over the set of compressed memories, such
that any future states can always be constructed by a convex combination of the
condense representations, allowing to make multiple hypotheses efficiently.
(ii) We investigate visual-only self-supervised video representation learning
from RGB frames, or from unsupervised optical flow, or both. (iii) We
thoroughly evaluate the quality of learnt representation on four different
downstream tasks: action recognition, video retrieval, learning with scarce
annotations, and unintentional action classification. In all cases, we
demonstrate state-of-the-art or comparable performance over other approaches
with orders of magnitude fewer training data.
- Abstract(参考訳): 本研究の目的は,映像からの自己教師型学習,特に行動認識のための表現である。
私たちは次のような貢献をします
i) タスクのための新しいアーキテクチャと学習フレームワーク Memory-augmented Dense Predictive Coding (MemDPC) を提案する。
圧縮された記憶の集合に対する予測的注意機構によって訓練され、任意の将来の状態は常に凝縮表現の凸結合によって構築され、複数の仮説を効率的に作成することができる。
(II)RGBフレームからの視覚のみの自己教師型ビデオ表現学習,あるいは教師なし光流からの学習,あるいはその両方について検討する。
(3)動作認識,ビデオ検索,アノテーションの少ない学習,意図しない行動分類という4つの下流課題における学習表現の質を徹底的に評価した。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
関連論文リスト
- Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Hierarchical Self-supervised Representation Learning for Movie
Understanding [24.952866206036536]
本稿では,階層的映画理解モデルの各レベルを個別に事前学習する,新しい階層的自己指導型事前学習戦略を提案する。
具体的には、コントラスト学習目標を用いた低レベルビデオバックボーンの事前トレーニングと、イベントマスク予測タスクを用いた高レベルビデオコンテクストアライザの事前トレーニングを提案する。
まず、我々の自己指導型事前学習戦略が効果的であることを示し、VidSituベンチマーク[37]における全てのタスクとメトリクスのパフォーマンス改善につながっている(例:意味的役割予測を47%から61% CIDErスコアに改善する)。
論文 参考訳(メタデータ) (2022-04-06T21:28:41Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。