論文の概要: MV2MAE: Multi-View Video Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2401.15900v1
- Date: Mon, 29 Jan 2024 05:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 15:51:06.377562
- Title: MV2MAE: Multi-View Video Masked Autoencoders
- Title(参考訳): MV2MAE:マルチビュービデオマッシュアップオートエンコーダ
- Authors: Ketul Shah, Robert Crandall, Jie Xu, Peng Zhou, Marian George, Mayank
Bansal, Rama Chellappa
- Abstract要約: 本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
- 参考スコア(独自算出の注目度): 33.61642891911761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos captured from multiple viewpoints can help in perceiving the 3D
structure of the world and benefit computer vision tasks such as action
recognition, tracking, etc. In this paper, we present a method for
self-supervised learning from synchronized multi-view videos. We use a
cross-view reconstruction task to inject geometry information in the model. Our
approach is based on the masked autoencoder (MAE) framework. In addition to the
same-view decoder, we introduce a separate cross-view decoder which leverages
cross-attention mechanism to reconstruct a target viewpoint video using a video
from source viewpoint, to help representations robust to viewpoint changes. For
videos, static regions can be reconstructed trivially which hinders learning
meaningful representations. To tackle this, we introduce a motion-weighted
reconstruction loss which improves temporal modeling. We report
state-of-the-art results on the NTU-60, NTU-120 and ETRI datasets, as well as
in the transfer learning setting on NUCLA, PKU-MMD-II and ROCOG-v2 datasets,
demonstrating the robustness of our approach. Code will be made available.
- Abstract(参考訳): 複数の視点から捉えたビデオは、世界の3D構造を認識し、アクション認識やトラッキングなどのコンピュータビジョンタスクに役立てることができる。
本稿では,同期型マルチビュービデオからの自己教師型学習手法を提案する。
モデルに幾何情報を注入するためにクロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
同視点デコーダに加えて,ソース視点からの映像を用いた対象視点映像の再構成にクロスアテンション機構を活用し,視点変化にロバストな表現を支援する,別個のクロスビューデコーダを導入する。
ビデオの場合、静的な領域は簡単に再構成でき、意味のある表現の学習を妨げる。
そこで本研究では, 時間モデルを改善する動き重み付き復元損失を提案する。
NTU-60, NTU-120, ETRIデータセット, およびNUCLA, PKU-MMD-II, ROCOG-v2データセットの転送学習環境での最先端の成果を報告する。
コードは利用可能になる。
関連論文リスト
- AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - Learning to Deblur and Rotate Motion-Blurred Faces [43.673660541417995]
ニューラルネットワークを用いて、1つの画像と対応する顔の視線から3Dビデオ表現を再構成する。
次に、推定視線に対するカメラ視点と、エンコーダデコーダネットワークに入力されるぼやけた画像とを比較し、新しいカメラ視点でシャープフレームのビデオを生成する。
論文 参考訳(メタデータ) (2021-12-14T17:51:19Z) - Support-Set Based Cross-Supervision for Video Grounding [98.29089558426399]
サポートセットベースのクロススーパービジョン(Sscs)モジュールは、追加の推論コストなしでトレーニングフェーズ中に既存のメソッドを改善することができる。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
我々は3つの挑戦的データセット上でSscsを広範囲に評価し、我々の手法が最先端の手法を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2021-08-24T08:25:26Z) - Cycle-Contrast for Self-Supervised Video Representation Learning [10.395615031496064]
本稿では,ビデオ表現を学習する新たな自己指導手法であるCCLについて述べる。
本手法では,R3Dアーキテクチャに基づく1つのネットワークからフレームとビデオの表現を学習する。
我々は,CCLが学習した映像表現が,映像理解の下流タスクにうまく移行できることを実証した。
論文 参考訳(メタデータ) (2020-10-28T08:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。