論文の概要: Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion
- arxiv url: http://arxiv.org/abs/2009.05757v3
- Date: Wed, 16 Dec 2020 10:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 08:06:57.735624
- Title: Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion
- Title(参考訳): シーンと動きの分離による教師なし映像表現学習の強化
- Authors: Jinpeng Wang, Yuting Gao, Ke Li, Jianguo Hu, Xinyang Jiang, Xiaowei
Guo, Rongrong Ji, Xing Sun
- Abstract要約: アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
- 参考スコア(独自算出の注目度): 86.56202610716504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One significant factor we expect the video representation learning to
capture, especially in contrast with the image representation learning, is the
object motion. However, we found that in the current mainstream video datasets,
some action categories are highly related with the scene where the action
happens, making the model tend to degrade to a solution where only the scene
information is encoded. For example, a trained model may predict a video as
playing football simply because it sees the field, neglecting that the subject
is dancing as a cheerleader on the field. This is against our original
intention towards the video representation learning and may bring scene bias on
different dataset that can not be ignored. In order to tackle this problem, we
propose to decouple the scene and the motion (DSM) with two simple operations,
so that the model attention towards the motion information is better paid.
Specifically, we construct a positive clip and a negative clip for each video.
Compared to the original video, the positive/negative is
motion-untouched/broken but scene-broken/untouched by Spatial Local Disturbance
and Temporal Local Disturbance. Our objective is to pull the positive closer
while pushing the negative farther to the original clip in the latent space. In
this way, the impact of the scene is weakened while the temporal sensitivity of
the network is further enhanced. We conduct experiments on two tasks with
various backbones and different pre-training datasets, and find that our method
surpass the SOTA methods with a remarkable 8.1% and 8.8% improvement towards
action recognition task on the UCF101 and HMDB51 datasets respectively using
the same backbone.
- Abstract(参考訳): 特に画像表現学習とは対照的に、ビデオ表現学習が捉えられることを期待する重要な要因の1つは、オブジェクトの動きです。
しかし,現在主流の映像データセットでは,アクションカテゴリがアクションの発生シーンと高度に関連していることから,シーン情報のみをエンコードするソリューションへとモデルが劣化する傾向がみられた。
例えば、トレーニングされたモデルは、フィールドを見ているだけで、フィールドでチアリーダーとして踊っていることを無視して、ビデオがサッカーをしていると予測できる。
これは、ビデオ表現学習に対する当初の意図に反しており、無視できない異なるデータセットにシーンバイアスをもたらす可能性がある。
この問題に対処するために,2つの簡単な操作でシーンとモーション(dsm)を分離し,動き情報に対するモデルへの注意がより払われるようにすることを提案する。
具体的には,ビデオ毎に肯定的なクリップと否定的なクリップを構築する。
オリジナルのビデオと比較すると、ポジティブ/ネガティブは動きのない/壊れるが、空間的局部外乱と時間的局部外乱によってシーンが壊れる/動かない。
我々の目的は、負のクリップを潜在空間の元のクリップに押しながら、ポジティブに近づくことである。
このようにして、ネットワークの時間的感度をさらに高めながら、シーンの影響が弱まる。
我々は,異なるバックボーンと異なる事前学習データセットを用いた2つのタスクについて実験を行い,同じバックボーンを用いて,UCF101データセットとHMDB51データセットの動作認識タスクに対して,顕著な8.1%と8.8%の改善を行った。
関連論文リスト
- DEVIAS: Learning Disentangled Video Representations of Action and Scene [3.336126457178601]
ビデオ認識モデルは、トレーニングデータにおけるアクションとシーンの急激な相関により、シーンバイアスのアクション表現を学習することが多い。
本稿では,アンタングル型エンコーダデコーダアーキテクチャを提案し,単一のモデルを用いてアンタングル型アクションとシーン表現を学習する。
提案手法は,UCF-101,Kinetics-400,HVUの各データセットと,SCUBA,HAT,HVUの各データセットに対して厳密に検証した。
論文 参考訳(メタデータ) (2023-11-30T18:58:44Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - Motion-aware Self-supervised Video Representation Learning via
Foreground-background Merging [19.311818681787845]
我々は、選択したビデオの前景領域を背景に構成するフォアグラウンド・バックグラウンド・マージング(FAME)を提案する。
FAMEは、様々なバックボーンを用いて、異なる下流タスクのパフォーマンスを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-30T13:45:26Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - VideoMix: Rethinking Data Augmentation for Video Classification [29.923635550986997]
最新のビデオアクション分類器は、しばしばオーバーフィットに苦しむ。
オーバーフィッティング問題に対処するための最近のデータ拡張戦略が報告されている。
VideoMixは、モデルがオブジェクトやシーンのバイアスを越えて学習し、アクション認識のためのより堅牢な手がかりを抽出する。
論文 参考訳(メタデータ) (2020-12-07T05:40:33Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。