論文の概要: Recurrent Video Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2512.13684v1
- Date: Mon, 15 Dec 2025 18:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.831302
- Title: Recurrent Video Masked Autoencoders
- Title(参考訳): リカレントビデオマスクオートエンコーダ
- Authors: Daniel Zoran, Nikhil Parthasarathy, Yi Yang, Drew A Hudson, Joao Carreira, Andrew Zisserman,
- Abstract要約: 本稿では,変換器をベースとしたニューラルリカレントを用いた映像表現学習手法を提案する。
ビデオ表現学習アプローチでは、トランスフォーマーベースのニューラルリカレントを使用して、高密度画像の特徴を時間とともに集約する。
- 参考スコア(独自算出の注目度): 49.34224831090952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Recurrent Video Masked-Autoencoders (RVM): a novel video representation learning approach that uses a transformer-based recurrent neural network to aggregate dense image features over time, effectively capturing the spatio-temporal structure of natural video data. RVM learns via an asymmetric masked prediction task requiring only a standard pixel reconstruction objective. This design yields a highly efficient ``generalist'' encoder: RVM achieves competitive performance with state-of-the-art video models (e.g. VideoMAE, V-JEPA) on video-level tasks like action recognition and point/object tracking, while also performing favorably against image models (e.g. DINOv2) on tasks that test geometric and dense spatial understanding. Notably, RVM achieves strong performance in the small-model regime without requiring knowledge distillation, exhibiting up to 30x greater parameter efficiency than competing video masked autoencoders. Moreover, we demonstrate that RVM's recurrent nature allows for stable feature propagation over long temporal horizons with linear computational cost, overcoming some of the limitations of standard spatio-temporal attention-based architectures. Finally, we use qualitative visualizations to highlight that RVM learns rich representations of scene semantics, structure, and motion.
- Abstract(参考訳): Recurrent Video Masked-Autoencoders (RVM: Recurrent Video Masked-Autoencoders) は、トランスフォーマーベースのリカレントニューラルネットワークを用いて、高密度画像の特徴を時間とともに集約し、自然なビデオデータの時空間構造を効果的にキャプチャする新しいビデオ表現学習手法である。
RVMは、標準的な画素再構成目的のみを必要とする非対称なマスク付き予測タスクを通じて学習する。
RVMは、アクション認識やポイント/オブジェクト追跡といったビデオレベルのタスクにおいて、最先端のビデオモデル(例えばVideoMAE、V-JEPA)と競合する性能を達成すると同時に、幾何学的かつ密集した空間的理解をテストするタスクにおいて、画像モデル(例えばDINOv2)に対して好意的に実行する。
特に、RVMは、知識蒸留を必要とせずに、小型モデルのシステムにおいて強力な性能を発揮し、競合するビデオマスクオートエンコーダの最大30倍のパラメータ効率を示す。
さらに、RVMの繰り返し特性により、線形計算コストの長い時間的地平線上での安定した特徴伝搬が可能であり、標準時空間の注意に基づくアーキテクチャの制限を克服できることを実証する。
最後に、RVMがシーンのセマンティクス、構造、動きの豊かな表現を学習していることを強調するために定性的な視覚化を使用します。
関連論文リスト
- Autoregressive Video Autoencoder with Decoupled Temporal and Spatial Context [8.458436768725212]
ビデオオートエンコーダは、ビデオをコンパクトな潜在表現に圧縮して効率的な再構成を行う。
自動回帰ビデオオートエンコーダ(ARVAE)を提案する。
ARVAEは、非常に軽量なモデルと小規模のトレーニングデータにより、優れた再構築品質を実現する。
論文 参考訳(メタデータ) (2025-12-12T05:40:01Z) - Towards Efficient Real-Time Video Motion Transfer via Generative Time Series Modeling [7.3949576464066]
本研究では,モーショントランスファー対応ビデオアプリケーションにおいて,帯域幅を大幅に最適化する深層学習フレームワークを提案する。
複雑な動きを効果的に捉えるために,キーポイントを検出することで動的物体を符号化する第1次運動モデル(FOMM)を用いる。
ビデオアニメーションと再構成のために, 平均絶対誤差, 共同埋め込み予測アーキテクチャ埋め込み距離, 構造類似度指数, 平均ペアワイズ変位の3つの指標を用いて, 実験結果を検証した。
論文 参考訳(メタデータ) (2025-04-07T22:21:54Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。