Fugu-MT 論文翻訳(概要): Masked Motion Encoding for Self-Supervised Video Representation Learning

論文の概要: Masked Motion Encoding for Self-Supervised Video Representation Learning

arxiv url: http://arxiv.org/abs/2210.06096v2
Date: Thu, 23 Mar 2023 05:50:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 18:08:00.632891
Title: Masked Motion Encoding for Self-Supervised Video Representation Learning
Title（参考訳）: 自己監督型映像表現学習のためのマスケモーション符号化
Authors: Xinyu Sun, Peihao Chen, Liangwei Chen, Changhao Li, Thomas H. Li, Mingkui Tan and Chuang Gan
Abstract要約: Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
参考スコア（独自算出の注目度）: 84.24773072241945
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How to learn discriminative video representation from unlabeled videos is challenging but crucial for video analysis. The latest attempts seek to learn a representation model by predicting the appearance contents in the masked regions. However, simply masking and recovering appearance contents may not be sufficient to model temporal clues as the appearance contents can be easily reconstructed from a single frame. To overcome this limitation, we present Masked Motion Encoding (MME), a new pre-training paradigm that reconstructs both appearance and motion information to explore temporal clues. In MME, we focus on addressing two critical challenges to improve the representation performance: 1) how to well represent the possible long-term motion across multiple frames; and 2) how to obtain fine-grained temporal clues from sparsely sampled videos. Motivated by the fact that human is able to recognize an action by tracking objects' position changes and shape changes, we propose to reconstruct a motion trajectory that represents these two kinds of change in the masked regions. Besides, given the sparse video input, we enforce the model to reconstruct dense motion trajectories in both spatial and temporal dimensions. Pre-trained with our MME paradigm, the model is able to anticipate long-term and fine-grained motion details. Code is available at https://github.com/XinyuSun/MME.
Abstract（参考訳）: ラベルのないビデオから識別的なビデオ表現を学ぶことは難しいが、ビデオ分析には不可欠である。最新の試みは,マスキング領域の出現内容を予測することによって,表現モデルを学ぶことである。しかし、外観内容が単一のフレームから容易に再構成できるため、外観内容のマスキングや復元だけでは時間的手がかりをモデル化するには不十分である。この限界を克服するため,我々は,時間的手がかりを探索するために出現情報と運動情報の両方を再構成する新しい事前学習パラダイムであるmasked motion encoding (mme)を提案する。 MMEでは、表現性能を改善するための2つの重要な課題に取り組むことに重点を置いている。 1) 複数のフレームにまたがる長期的動きをうまく表現する方法,及び 2) まばらなサンプルビデオから微細な時間的手がかりを得る方法。物体の位置変化や形状変化を追跡することで、人間は行動を認識することができるという事実に動機づけられ、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築する。さらに,スパース映像の入力を考慮し,空間的・時間的両面の濃密な運動軌跡の再構成を行う。我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かい動きの詳細を予測できる。コードはhttps://github.com/XinyuSun/MMEで入手できる。

関連論文リスト

Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
When the Future Becomes the Past: Taming Temporal Correspondence for Self-supervised Video Representation Learning [80.09819072780193]
ビデオ表現学習における時間対応を利用した自己教師型フレームワーク(T-CoRe)を提案する。 T-CoReの実験は、複数の下流タスクに対して一貫して優れた性能を示し、ビデオ表現学習の有効性を実証している。
論文参考訳（メタデータ） (2025-03-19T10:50:03Z)
Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models [18.41701130228042]
動きのカスタマイズは、拡散モデル(DM)に適応して、同じ動きの概念の一連のビデオクリップによって指定された動きを持つビデオを生成することを目的としている。本稿では,TAP (temporal attention purification) とAH ( appearance highway) の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-28T05:40:20Z)
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文参考訳（メタデータ） (2024-11-15T03:45:09Z)
Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文参考訳（メタデータ） (2022-10-23T14:09:35Z)
Self-supervised Video Representation Learning with Motion-Aware Masked Autoencoders [46.38458873424361]
近年,Masked Autoencoders (MAE) が自己教師型表現学習者として登場している。本研究では、モーションアウェアの変種であるMotionMAEを紹介する。本モデルは,時間とともに対応する動き構造情報を付加的に予測するように設計されている。
論文参考訳（メタデータ） (2022-10-09T03:22:15Z)
Self-Supervised Video Representation Learning with Motion-Contrastive Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet) MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文参考訳（メタデータ） (2022-04-10T05:34:46Z)
Exploring Motion and Appearance Information for Temporal Sentence Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2022-01-03T02:44:18Z)
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文参考訳（メタデータ） (2021-11-24T18:31:20Z)
Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。 MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文参考訳（メタデータ） (2021-04-01T03:55:50Z)
RSPNet: Relative Speed Perception for Unsupervised Video Representation Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文参考訳（メタデータ） (2020-10-27T16:42:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。