論文の概要: ViP-Mixer: A Convolutional Mixer for Video Prediction
- arxiv url: http://arxiv.org/abs/2311.11683v1
- Date: Mon, 20 Nov 2023 11:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:19:47.249322
- Title: ViP-Mixer: A Convolutional Mixer for Video Prediction
- Title(参考訳): ViP-Mixer:ビデオ予測のための畳み込みミキサー
- Authors: Xin Zheng, Ziang Peng, Yuan Cao, Hongming Shan, Junping Zhang
- Abstract要約: 既存の方法は、時間と空間とチャネル次元が3つの異なる角度から混在するビデオデータを処理する。
本稿では、自動エンコーダの潜時空間における時間的進化をモデル化するために、ビデオ予測のための畳み込みミキサー(ViP-Mixer)を提案する。
提案手法は,合成シナリオと実世界のシナリオの両方をカバーする3つのベンチマークビデオデータセットに対して,最先端の予測性能を実現する。
- 参考スコア(独自算出の注目度): 45.09805460286451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction aims to predict future frames from a video's previous
content. Existing methods mainly process video data where the time dimension
mingles with the space and channel dimensions from three distinct angles: as a
sequence of individual frames, as a 3D volume in spatiotemporal coordinates, or
as a stacked image where frames are treated as separate channels. Most of them
generally focus on one of these perspectives and may fail to fully exploit the
relationships across different dimensions. To address this issue, this paper
introduces a convolutional mixer for video prediction, termed ViP-Mixer, to
model the spatiotemporal evolution in the latent space of an autoencoder. The
ViP-Mixers are stacked sequentially and interleave feature mixing at three
levels: frames, channels, and locations. Extensive experiments demonstrate that
our proposed method achieves new state-of-the-art prediction performance on
three benchmark video datasets covering both synthetic and real-world
scenarios.
- Abstract(参考訳): ビデオ予測は、ビデオの以前のコンテンツから将来のフレームを予測することを目的としている。
既存の手法では、時間次元と空間とチャネル次元が3つの異なる角度から混ざり合っている映像データを主に処理している: 個々のフレームのシーケンス、時空間座標の3dボリューム、またはフレームを別々のチャネルとして扱うスタック画像。
それらは一般的にこれらの視点の1つに焦点を当てており、異なる次元間の関係を完全に活用できない可能性がある。
そこで本稿では,ビデオ予測のための畳み込みミキサーvip-mixerを紹介し,オートエンコーダの潜在空間における時空間進化をモデル化する。
ViP-Mixersはシーケンシャルに積み重ねられ、フレーム、チャンネル、ロケーションの3つのレベルで機能ミキシングされる。
提案手法は,合成シナリオと実世界シナリオの両方をカバーする3つのベンチマークビデオデータセットにおいて,新たな最先端予測性能を実現することを示す。
関連論文リスト
- Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - Self-supervised learning of object pose estimation using keypoint
prediction [0.0]
本稿では,物体のポーズと形状予測の最近の進歩について述べる。
主な貢献は、カテゴリ固有の形状上の位置に対応するキーポイントの自己教師付き学習によるカメラポーズ予測への新しいアプローチである。
カメラポーズ予測に対する提案手法は,最先端手法と比較して,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-02-14T21:47:25Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文 参考訳(メタデータ) (2022-06-14T15:51:28Z) - Unsupervised Action Localization Crop in Video Retargeting for 3D
ConvNets [0.0]
3D CNNは、元々の寸法の正方形のビデオを必要とする。使用中のランダムまたはセンターカッピング技術は、ビデオの主題を完全に取り除くかもしれない。
本稿では,これを空間的・映像間合成問題として,教師なしのビデオトリミング手法を提案する。
合成ビデオは1:1のアスペクト比を維持し、サイズが小さく、一定期間にわたってビデオオブジェクトをターゲットにしている。
論文 参考訳(メタデータ) (2021-11-14T19:27:13Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。