論文の概要: Motion-aware Self-supervised Video Representation Learning via
Foreground-background Merging
- arxiv url: http://arxiv.org/abs/2109.15130v1
- Date: Thu, 30 Sep 2021 13:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:50:37.325636
- Title: Motion-aware Self-supervised Video Representation Learning via
Foreground-background Merging
- Title(参考訳): フォアグラウンド・バックグラウンドマージによるモーションアウェア自己教師付き映像表現学習
- Authors: Shuangrui Ding, Maomao Li, Tianyu Yang, Rui Qian, Haohang Xu, Qingyi
Chen, Jue Wang
- Abstract要約: 我々は、選択したビデオの前景領域を背景に構成するフォアグラウンド・バックグラウンド・マージング(FAME)を提案する。
FAMEは、様々なバックボーンを用いて、異なる下流タスクのパフォーマンスを大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 19.311818681787845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In light of the success of contrastive learning in the image domain, current
self-supervised video representation learning methods usually employ
contrastive loss to facilitate video representation learning. When naively
pulling two augmented views of a video closer, the model however tends to learn
the common static background as a shortcut but fails to capture the motion
information, a phenomenon dubbed as background bias. This bias makes the model
suffer from weak generalization ability, leading to worse performance on
downstream tasks such as action recognition. To alleviate such bias, we propose
Foreground-background Merging (FAME) to deliberately compose the foreground
region of the selected video onto the background of others. Specifically,
without any off-the-shelf detector, we extract the foreground and background
regions via the frame difference and color statistics, and shuffle the
background regions among the videos. By leveraging the semantic consistency
between the original clips and the fused ones, the model focuses more on the
foreground motion pattern and is thus more robust to the background context.
Extensive experiments demonstrate that FAME can significantly boost the
performance in different downstream tasks with various backbones. When
integrated with MoCo, FAME reaches 84.8% and 53.5% accuracy on UCF101 and
HMDB51, respectively, achieving the state-of-the-art performance.
- Abstract(参考訳): 画像領域におけるコントラスト学習の成功を踏まえ、現在の自己教師付き映像表現学習法は、通常、コントラスト損失を用いて映像表現学習を容易にする。
ビデオの2つの拡張ビューを鼻で引っ張る場合、このモデルは一般的な静的背景をショートカットとして学習する傾向にあるが、背景バイアスと呼ばれる動き情報を捉えることができない。
このバイアスにより、モデルは弱い一般化能力に苦しめられ、アクション認識のような下流タスクのパフォーマンスが低下する。
このようなバイアスを緩和するため,我々は,選択した映像のフォアグラウンド領域を他者の背景に意図的に構成するフォアグラウンドバックグラウンドマージ(fame)を提案する。
具体的には、既設の検知器を使わずに、フレーム差と色統計を用いて前景と背景領域を抽出し、ビデオ中の背景領域をシャッフルする。
元のクリップと融合したクリップのセマンティック一貫性を活用することで、モデルは前景の動きパターンをより重視し、背景コンテキストに対してより堅牢になる。
大規模な実験により、FAMEは様々なバックボーンで異なる下流タスクのパフォーマンスを大幅に向上させることができる。
MoCoと統合されると、FAMEはUCF101とHMDB51でそれぞれ84.8%と53.5%の精度に達し、最先端の性能を達成した。
関連論文リスト
- Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Saliency detection with moving camera via background model completion [0.5076419064097734]
本稿では,SDBMC(Saliency Detection via background model completion)という新しいフレームワークを提案する。
バックグラウンドモデラーとディープラーニングバックグラウンド/地上セグメンテーションネットワークから構成される。
バックグラウンド/地上セグメンタを採用するが、特定のビデオデータセットで事前訓練されているため、見当たらないビデオの塩分濃度も検出できる。
論文 参考訳(メタデータ) (2021-10-30T11:17:58Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Removing the Background by Adding the Background: Towards Background
Robust Self-supervised Video Representation Learning [105.42550534895828]
自己教師付き学習は、ディープニューラルネットワークの映像表現能力を改善する大きな可能性を示している。
現在の手法のいくつかは背景から騙される傾向があり、つまり、予測は動きではなく動画の背景に大きく依存する。
背景を追加することで背景の影響を取り除くことを提案する。つまり、ビデオの場合、静的なフレームをランダムに選択し、他のフレームに付加して、邪魔なビデオサンプルを構築する。
そして、モデルを強制的に、気を散らすビデオの特徴とオリジナルビデオの特徴を近づけることで、モデルが明示的に制限されるようにします。
論文 参考訳(メタデータ) (2020-09-12T11:25:13Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。