論文の概要: FG-DFPN: Flow Guided Deformable Frame Prediction Network
- arxiv url: http://arxiv.org/abs/2503.11343v1
- Date: Fri, 14 Mar 2025 12:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:05:59.701254
- Title: FG-DFPN: Flow Guided Deformable Frame Prediction Network
- Title(参考訳): FG-DFPN:フローガイドによる変形性フレーム予測ネットワーク
- Authors: M. Akın Yılmaz, Ahmet Bilican, A. Murat Tekalp,
- Abstract要約: 複雑な力学をモデル化するために,光フロー推定と変形可能な畳み込みの相乗効果を利用する新しいアーキテクチャであるFG-DFPNを提案する。
実験により,FG-DFPNは8種類のMPEGテストシーケンスに対して最先端の性能を達成し,既存の手法を1PSNRで上回り,競合推論速度を維持した。
- 参考スコア(独自算出の注目度): 5.6390038395163815
- License:
- Abstract: Video frame prediction remains a fundamental challenge in computer vision with direct implications for autonomous systems, video compression, and media synthesis. We present FG-DFPN, a novel architecture that harnesses the synergy between optical flow estimation and deformable convolutions to model complex spatio-temporal dynamics. By guiding deformable sampling with motion cues, our approach addresses the limitations of fixed-kernel networks when handling diverse motion patterns. The multi-scale design enables FG-DFPN to simultaneously capture global scene transformations and local object movements with remarkable precision. Our experiments demonstrate that FG-DFPN achieves state-of-the-art performance on eight diverse MPEG test sequences, outperforming existing methods by 1dB PSNR while maintaining competitive inference speeds. The integration of motion cues with adaptive geometric transformations makes FG-DFPN a promising solution for next-generation video processing systems that require high-fidelity temporal predictions. The model and instructions to reproduce our results will be released at: https://github.com/KUIS-AI-Tekalp-Research Group/frame-prediction
- Abstract(参考訳): ビデオフレーム予測は、自律システム、ビデオ圧縮、メディア合成といった直接的な意味を持つコンピュータビジョンにおいて、依然として根本的な課題である。
複雑な時空間力学をモデル化するために,光フロー推定と変形可能な畳み込みの相乗効果を利用する新しいアーキテクチャFG-DFPNを提案する。
変形可能なサンプリングをモーションキューで導くことで,多様な動作パターンを扱う場合の固定カーネルネットワークの限界に対処する。
マルチスケール設計により、FG-DFPNは、グローバルなシーン変換と局所的なオブジェクトの動きを、顕著な精度で同時にキャプチャできる。
実験により,FG-DFPNは8種類のMPEGテストシーケンスに対して最先端の性能を達成し,競合推論速度を維持しつつ1dBPSNRの既存手法よりも優れた性能を示した。
モーションキューと適応幾何変換の統合により、FG-DFPNは高忠実度時間予測を必要とする次世代ビデオ処理システムにとって有望なソリューションとなる。
結果の再現のためのモデルと命令は、https://github.com/KUIS-AI-Tekalp-Research Group/frame-predictionで公開される。
関連論文リスト
- Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields [39.214857326425204]
ビデオフレーム補間 (VFI) は連続的な入力フレーム間の中間映像フレームを生成することを目的としている。
クロスモーダルな非対称な双方向運動場推定を行うイベントベースVFIフレームワークを提案する。
提案手法は, 各種データセット上での最先端VFI法よりも高い性能向上を示す。
論文 参考訳(メタデータ) (2025-02-19T13:40:43Z) - MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction [0.0]
本稿では,GAN(Generative Adrative Networks)とアテンション機構を組み合わせたマルチアテンションユニット(MAUCell)を導入する。
新しい設計システムは、時間的連続性と空間的精度の平衡を維持し、信頼性の高い映像予測を提供する。
論文 参考訳(メタデータ) (2025-01-28T14:52:10Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions [63.23985601478339]
本稿では,ビデオフレームにおける大きな動きに対処する,単純で効果的なH-VFI法を提案する。
H-VFIは、粗大な戦略で変形可能なカーネルを学習するために階層型ビデオ変換器に寄与する。
このようなプログレッシブ近似の利点は、大きなモーションフレーム問題を比較的単純ないくつかのサブタスクに予測できることである。
論文 参考訳(メタデータ) (2022-11-21T09:49:23Z) - JNMR: Joint Non-linear Motion Regression for Video Frame Interpolation [47.123769305867775]
ビデオフレーム(VFI)は、双方向の歴史的参照から学習可能な動きを歪曲することでフレームを生成することを目的としている。
我々は、フレーム間の複雑な動きをモデル化するために、VFIをJNMR(Joint Non-linear Motion Regression)戦略として再構成する。
その結果, 関節運動の退行性は, 最先端の方法と比較して有意に向上した。
論文 参考訳(メタデータ) (2022-06-09T02:47:29Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。