論文の概要: MMVP: Motion-Matrix-based Video Prediction
- arxiv url: http://arxiv.org/abs/2308.16154v2
- Date: Thu, 31 Aug 2023 00:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 11:24:35.528624
- Title: MMVP: Motion-Matrix-based Video Prediction
- Title(参考訳): MMVP:モーションマトリックスによる映像予測
- Authors: Yiqi Zhong, Luming Liang, Ilya Zharkov, Ulrich Neumann
- Abstract要約: この研究は、エンドツーエンドのトレーニング可能な2ストリームビデオ予測フレームワーク、Motion-Matrix-based Video Prediction (MMVP)を導入している。
MMVPは、同じモジュールセット内の動作予測と外観維持を分離する。
実験の結果、MMVPは非無視の大きなマージンで公開データセット上で最先端のシステムより優れていることが示された。
- 参考スコア(独自算出の注目度): 26.406522133797946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central challenge of video prediction lies where the system has to reason
the objects' future motions from image frames while simultaneously maintaining
the consistency of their appearances across frames. This work introduces an
end-to-end trainable two-stream video prediction framework, Motion-Matrix-based
Video Prediction (MMVP), to tackle this challenge. Unlike previous methods that
usually handle motion prediction and appearance maintenance within the same set
of modules, MMVP decouples motion and appearance information by constructing
appearance-agnostic motion matrices. The motion matrices represent the temporal
similarity of each and every pair of feature patches in the input frames, and
are the sole input of the motion prediction module in MMVP. This design
improves video prediction in both accuracy and efficiency, and reduces the
model size. Results of extensive experiments demonstrate that MMVP outperforms
state-of-the-art systems on public data sets by non-negligible large margins
(about 1 db in PSNR, UCF Sports) in significantly smaller model sizes (84% the
size or smaller).
- Abstract(参考訳): ビデオ予測の中心的な課題は、システムがフレーム間の外観の一貫性を保ちながら、画像フレームからオブジェクトの将来の動きを推論しなければならないところにある。
この課題に対処するために、エンドツーエンドのトレーニング可能な2ストリームビデオ予測フレームワークであるMotion-Matrix-based Video Prediction (MMVP)を導入する。
動作予測と外観維持を同じモジュールセット内で行う従来の方法とは異なり、MMVPは外見に依存しない動き行列を構築して動きと外観情報を分離する。
動き行列は、入力フレーム内の各および各特徴パッチの時間的類似性を表し、mmvpにおける動き予測モジュールの唯一の入力である。
この設計は、精度と効率の両方で映像予測を改善し、モデルサイズを小さくする。
広範な実験の結果、mmvpは、非無視可能な大きなマージン(psnr、utfスポーツの約1db)によって、公開データセットの最先端システムよりもかなり小さいモデルサイズ(84%または小さい)で優れていることが証明された。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - HumanMAC: Masked Motion Completion for Human Motion Prediction [62.279925754717674]
人間の動き予測はコンピュータビジョンとコンピュータグラフィックスの古典的な問題である。
従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現している。
本稿では,新しい視点から新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:34:59Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Motion Transformer with Global Intention Localization and Local Movement
Refinement [103.75625476231401]
動き TRansformer (MTR) は、大域的意図の局所化と局所的な動きの洗練の合同最適化として、動き予測をモデル化する。
MTRは、限界運動予測と関節運動予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-09-27T16:23:14Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Mutual Information Based Method for Unsupervised Disentanglement of
Video Representation [0.0]
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。
将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。
我々は,高次元映像フレームの予測作業を削減する,相互情報予測自動エンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T13:16:07Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。