論文の概要: Fast Fourier Inception Networks for Occluded Video Prediction
- arxiv url: http://arxiv.org/abs/2306.10346v1
- Date: Sat, 17 Jun 2023 13:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 22:56:53.716403
- Title: Fast Fourier Inception Networks for Occluded Video Prediction
- Title(参考訳): occluded video 予測のための高速フーリエインセプションネットワーク
- Authors: Ping Li and Chenhan Zhang and Xianghua Xu
- Abstract要約: ビデオ予測は、過去のフレームを用いて将来のフレームを生成するピクセルレベルのタスクである。
ビデオ予測のための完全畳み込み型高速フーリエネットワークである itFFINet を開発した。
- 参考スコア(独自算出の注目度): 16.99757795577547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is a pixel-level task that generates future frames by
employing the historical frames. There often exist continuous complex motions,
such as object overlapping and scene occlusion in video, which poses great
challenges to this task. Previous works either fail to well capture the
long-term temporal dynamics or do not handle the occlusion masks. To address
these issues, we develop the fully convolutional Fast Fourier Inception
Networks for video prediction, termed \textit{FFINet}, which includes two
primary components, \ie, the occlusion inpainter and the spatiotemporal
translator. The former adopts the fast Fourier convolutions to enlarge the
receptive field, such that the missing areas (occlusion) with complex geometric
structures are filled by the inpainter. The latter employs the stacked Fourier
transform inception module to learn the temporal evolution by group
convolutions and the spatial movement by channel-wise Fourier convolutions,
which captures both the local and the global spatiotemporal features. This
encourages generating more realistic and high-quality future frames. To
optimize the model, the recovery loss is imposed to the objective, \ie,
minimizing the mean square error between the ground-truth frame and the
recovery frame. Both quantitative and qualitative experimental results on five
benchmarks, including Moving MNIST, TaxiBJ, Human3.6M, Caltech Pedestrian, and
KTH, have demonstrated the superiority of the proposed approach. Our code is
available at GitHub.
- Abstract(参考訳): ビデオ予測は、過去のフレームを用いて将来のフレームを生成するピクセルレベルのタスクである。
物体の重なり合いや映像のシーンの閉塞といった連続した複雑な動きがしばしば存在し、このタスクには大きな課題が生じる。
以前の作業は、長期の時間的ダイナミクスをうまく捉えられなかったり、オクルージョンマスクを扱わなかったりする。
これらの課題に対処するため,ビデオ予測のための完全畳み込み型高速フーリエインセプションネットワークである「textit{FFINet}」を開発した。
前者は速いフーリエ畳み込みを採用して受容場を拡大し、複雑な幾何学的構造を持つ欠落領域(閉包)はインパインターで満たされる。
後者は重積フーリエ変換開始モジュールを用いて群畳み込みによる時間的進化とチャネルワイドフーリエ畳み込みによる空間的移動を学習し、局所的特徴と大域的時空間的特徴の両方を捉える。
これにより、より現実的で高品質な未来のフレームが生成される。
モデルを最適化するには、目標である \ie に対して回復損失を課し、接地フレームと回収フレームの間の平均二乗誤差を最小化する。
mnist, taxibj, human3.6m, caltech pedestrian, kthの5つのベンチマークにおける定量的・質的実験結果から, 提案手法の優位性が示された。
私たちのコードはGitHubで入手可能です。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Temporal Residual Jacobians For Rig-free Motion Transfer [45.640576754352104]
データ駆動型モーショントランスファーを実現するための新しい表現としてResidual Temporal Jacobiansを紹介した。
我々の手法は、リギングや中間形状へのアクセスを前提とせず、幾何学的かつ時間的に一貫した動きを発生させ、長い動き列の転送に利用できる。
論文 参考訳(メタデータ) (2024-07-20T18:29:22Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。
我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。
我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文 参考訳(メタデータ) (2022-06-22T02:16:47Z) - Fourier PlenOctrees for Dynamic Radiance Field Rendering in Real-time [43.0484840009621]
Neural Radiance Field (NeRF)のような暗黙の神経表現は、主にマルチビュー設定下でキャプチャされた静的オブジェクトのモデリングに焦点を当てている。
本稿では,FVV(Fourier PlenOctree)技術を用いて,FVV(Fourier PlenOctree)設定下で撮影した動的シーンの効率的なニューラルモデリングとリアルタイムレンダリングを実現する。
提案手法は,元のNeRFよりも3000倍高速で,SOTAよりも1桁の加速速度を持つことを示す。
論文 参考訳(メタデータ) (2022-02-17T11:57:01Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。