Fugu-MT 論文翻訳(概要): A unified model for continuous conditional video prediction

論文の概要: A unified model for continuous conditional video prediction

arxiv url: http://arxiv.org/abs/2210.05810v2
Date: Thu, 6 Apr 2023 17:00:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-10 15:13:25.590271
Title: A unified model for continuous conditional video prediction
Title（参考訳）: 連続条件付き映像予測のための統一モデル
Authors: Xi Ye, Guillaume-Alexandre Bilodeau
Abstract要約: 条件付きビデオ予測タスクは通常、タスク関連モデルによって解決される。ほぼ全ての条件付きビデオ予測モデルは、離散的な予測しか達成できない。本稿では,これら2つの問題を同時に扱う統一モデルを提案する。
参考スコア（独自算出の注目度）: 14.685237010856953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Different conditional video prediction tasks, like video future frame prediction and video frame interpolation, are normally solved by task-related models even though they share many common underlying characteristics. Furthermore, almost all conditional video prediction models can only achieve discrete prediction. In this paper, we propose a unified model that addresses these two issues at the same time. We show that conditional video prediction can be formulated as a neural process, which maps input spatio-temporal coordinates to target pixel values given context spatio-temporal coordinates and context pixel values. Specifically, we feed the implicit neural representation of coordinates and context pixel features into a Transformer-based non-autoregressive conditional video prediction model. Our task-specific models outperform previous work for video future frame prediction and video interpolation on multiple datasets. Importantly, the model is able to interpolate or predict with an arbitrary high frame rate, i.e., continuous prediction. Our source code is available at \url{https://npvp.github.io}.
Abstract（参考訳）: video future frame predictionやvideo frame interpolationのような異なる条件付きビデオ予測タスクは、共通する多くの特性を共有しているにもかかわらず、通常タスク関連モデルによって解決される。さらに、ほとんどの条件付きビデオ予測モデルは離散予測しか達成できない。本稿では,これら2つの課題を同時に解決する統一モデルを提案する。入力された時空間座標を、コンテキスト時空間座標とコンテキストピクセル値が与えられた対象画素値にマッピングするニューラルプロセスとして条件付きビデオ予測を定式化できることを示す。具体的には、座標とコンテキストピクセルの特徴の暗黙的なニューラルネットワーク表現を、トランスフォーマティブベースの非自己回帰条件付きビデオ予測モデルに供給する。タスク固有モデルは、複数のデータセット上での映像フレーム予測とビデオ補間において、以前の作業より優れている。重要なことに、モデルは任意の高いフレームレート、すなわち連続的な予測で補間または予測することができる。ソースコードは \url{https://npvp.github.io} で入手できる。

関連論文リスト

Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。本稿では,映像予測の文脈における3次元注意の包括的分析を行う。精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文参考訳（メタデータ） (2024-10-07T03:52:06Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文参考訳（メタデータ） (2024-04-01T17:59:15Z)
STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文参考訳（メタデータ） (2023-12-11T16:12:43Z)
HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文参考訳（メタデータ） (2022-09-15T08:41:57Z)
VMFormer: End-to-End Video Matting with Transformer [48.97730965527976]
ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
論文参考訳（メタデータ） (2022-08-26T17:51:02Z)
Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文参考訳（メタデータ） (2022-06-27T17:03:46Z)
Masked Conditional Video Diffusion for Prediction, Generation, and Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。提案手法は,1～12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文参考訳（メタデータ） (2022-05-19T20:58:05Z)
Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文参考訳（メタデータ） (2022-03-17T13:08:28Z)
Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。 GHVAEは4つのビデオデータセットで予測性能が17～55%向上し、実際のロボットタスクで35～40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文参考訳（メタデータ） (2021-03-06T18:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。