Fugu-MT 論文翻訳(概要): ViP-Mixer: A Convolutional Mixer for Video Prediction

論文の概要: ViP-Mixer: A Convolutional Mixer for Video Prediction

arxiv url: http://arxiv.org/abs/2311.11683v1
Date: Mon, 20 Nov 2023 11:28:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 19:19:47.249322
Title: ViP-Mixer: A Convolutional Mixer for Video Prediction
Title（参考訳）: ViP-Mixer:ビデオ予測のための畳み込みミキサー
Authors: Xin Zheng, Ziang Peng, Yuan Cao, Hongming Shan, Junping Zhang
Abstract要約: 既存の方法は、時間と空間とチャネル次元が3つの異なる角度から混在するビデオデータを処理する。本稿では、自動エンコーダの潜時空間における時間的進化をモデル化するために、ビデオ予測のための畳み込みミキサー(ViP-Mixer)を提案する。提案手法は,合成シナリオと実世界のシナリオの両方をカバーする3つのベンチマークビデオデータセットに対して,最先端の予測性能を実現する。
参考スコア（独自算出の注目度）: 45.09805460286451
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video prediction aims to predict future frames from a video's previous content. Existing methods mainly process video data where the time dimension mingles with the space and channel dimensions from three distinct angles: as a sequence of individual frames, as a 3D volume in spatiotemporal coordinates, or as a stacked image where frames are treated as separate channels. Most of them generally focus on one of these perspectives and may fail to fully exploit the relationships across different dimensions. To address this issue, this paper introduces a convolutional mixer for video prediction, termed ViP-Mixer, to model the spatiotemporal evolution in the latent space of an autoencoder. The ViP-Mixers are stacked sequentially and interleave feature mixing at three levels: frames, channels, and locations. Extensive experiments demonstrate that our proposed method achieves new state-of-the-art prediction performance on three benchmark video datasets covering both synthetic and real-world scenarios.
Abstract（参考訳）: ビデオ予測は、ビデオの以前のコンテンツから将来のフレームを予測することを目的としている。既存の手法では、時間次元と空間とチャネル次元が3つの異なる角度から混ざり合っている映像データを主に処理している: 個々のフレームのシーケンス、時空間座標の3dボリューム、またはフレームを別々のチャネルとして扱うスタック画像。それらは一般的にこれらの視点の1つに焦点を当てており、異なる次元間の関係を完全に活用できない可能性がある。そこで本稿では,ビデオ予測のための畳み込みミキサーvip-mixerを紹介し,オートエンコーダの潜在空間における時空間進化をモデル化する。 ViP-Mixersはシーケンシャルに積み重ねられ、フレーム、チャンネル、ロケーションの3つのレベルで機能ミキシングされる。提案手法は,合成シナリオと実世界シナリオの両方をカバーする3つのベンチマークビデオデータセットにおいて,新たな最先端予測性能を実現することを示す。

関連論文リスト

VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction [46.687394176382746]
SISO(Single-In-Single-Out)アーキテクチャに基づいて,既存のビデオ予測手法がモデルを構築する。あるいは、将来のフレームを1ショットで出力するMulti-In-Multi-Out (MIMO)アーキテクチャは、自然に再帰を損なう。
論文参考訳（メタデータ） (2022-12-09T03:57:13Z)
Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文参考訳（メタデータ） (2022-10-08T07:03:31Z)
Flexible Diffusion Modeling of Long Videos [15.220686350342385]
本稿では,任意のビデオフレームの任意のサブセットをテスト時にサンプリングできる生成モデルを提案する。本稿では,25分以上の時間的コヒーレントなビデオとデータセットの事前処理によるビデオモデリングの改善を実演する。さらに、CARLAの自動運転車シミュレータで生成されたビデオに基づいて、新しいビデオモデリングデータセットと意味論的に意味のあるメトリクスをリリースする。
論文参考訳（メタデータ） (2022-05-23T17:51:48Z)
STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文参考訳（メタデータ） (2022-04-20T13:42:51Z)
STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。 STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文参考訳（メタデータ） (2022-03-30T06:24:00Z)
Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文参考訳（メタデータ） (2022-03-17T13:08:28Z)
Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文参考訳（メタデータ） (2021-08-24T12:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。