論文の概要: Wide and Narrow: Video Prediction from Context and Motion
- arxiv url: http://arxiv.org/abs/2110.11586v1
- Date: Fri, 22 Oct 2021 04:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 14:31:13.627837
- Title: Wide and Narrow: Video Prediction from Context and Motion
- Title(参考訳): 広さと狭さ: コンテキストと動きからのビデオ予測
- Authors: Jaehoon Cho, Jiyoung Lee, Changjae Oh, Wonil Song, Kwanghoon Sohn
- Abstract要約: 本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
- 参考スコア(独自算出の注目度): 54.21624227408727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction, forecasting the future frames from a sequence of input
frames, is a challenging task since the view changes are influenced by various
factors, such as the global context surrounding the scene and local motion
dynamics. In this paper, we propose a new framework to integrate these
complementary attributes to predict complex pixel dynamics through deep
networks. We present global context propagation networks that iteratively
aggregate the non-local neighboring representations to preserve the contextual
information over the past frames. To capture the local motion pattern of
objects, we also devise local filter memory networks that generate adaptive
filter kernels by storing the prototypical motion of moving objects in the
memory. The proposed framework, utilizing the outputs from both networks, can
address blurry predictions and color distortion. We conduct experiments on
Caltech pedestrian and UCF101 datasets, and demonstrate state-of-the-art
results. Especially for multi-step prediction, we obtain an outstanding
performance in quantitative and qualitative evaluation.
- Abstract(参考訳): 映像予測は,シーンを取り巻くグローバルな状況や局所的な動きのダイナミクスなど,視点の変化が様々な要因に影響されるため,一連の入力フレームから将来のフレームを予測することが難しい課題である。
本稿では,これらの相補的属性を統合し,深層ネットワークによる複雑なピクセルダイナミクスを予測するフレームワークを提案する。
本稿では,非局所隣接表現を反復的に集約し,過去フレームの文脈情報を保存するグローバルコンテキスト伝搬ネットワークを提案する。
また,オブジェクトの局所的動きパターンを捉えるために,移動物体の原型的動きを記憶することで適応フィルタカーネルを生成するローカルフィルタメモリネットワークを考案する。
提案手法は,両ネットワークからの出力を利用して,ぼやけた予測や色歪に対処できる。
我々は、カルテック歩行者とutf101データセットの実験を行い、最新結果を実証する。
特に多段階予測では,定量的および定性評価において優れた性能が得られる。
関連論文リスト
- Object-Centric Image to Video Generation with Language Guidance [17.50161162624179]
TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。
提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Object-Centric Video Prediction via Decoupling of Object Dynamics and
Interactions [27.112210225969733]
本稿では,映像系列の構造を抽出し,オブジェクトのダイナミックスやインタラクションを視覚的観察からモデル化する,オブジェクト中心のビデオ予測タスクのための新しいフレームワークを提案する。
そこで本研究では,時間的ダイナミクスとオブジェクトの相互作用の処理を分離した2つのオブジェクト中心ビデオ予測器(OCVP)トランスフォーマモジュールを提案する。
実験では、OCVP予測器を用いたオブジェクト中心の予測フレームワークが、2つの異なるデータセットにおけるオブジェクト非依存のビデオ予測モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T08:29:26Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。