論文の概要: Continuous Space-Time Video Super-Resolution with 3D Fourier Fields
- arxiv url: http://arxiv.org/abs/2509.26325v1
- Date: Tue, 30 Sep 2025 14:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.16756
- Title: Continuous Space-Time Video Super-Resolution with 3D Fourier Fields
- Title(参考訳): 3次元フーリエ場を用いた連続空間時間ビデオ超解像
- Authors: Alexander Becker, Julius Erbach, Dominik Narnhofer, Konrad Schindler,
- Abstract要約: 連続時空ビデオ超解像のための新しい定式化法を提案する。
モデリング関節は空間的および時間的超解像の両方を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 62.270473766381976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel formulation for continuous space-time video super-resolution. Instead of decoupling the representation of a video sequence into separate spatial and temporal components and relying on brittle, explicit frame warping for motion compensation, we encode video as a continuous, spatio-temporally coherent 3D Video Fourier Field (VFF). That representation offers three key advantages: (1) it enables cheap, flexible sampling at arbitrary locations in space and time; (2) it is able to simultaneously capture fine spatial detail and smooth temporal dynamics; and (3) it offers the possibility to include an analytical, Gaussian point spread function in the sampling to ensure aliasing-free reconstruction at arbitrary scale. The coefficients of the proposed, Fourier-like sinusoidal basis are predicted with a neural encoder with a large spatio-temporal receptive field, conditioned on the low-resolution input video. Through extensive experiments, we show that our joint modeling substantially improves both spatial and temporal super-resolution and sets a new state of the art for multiple benchmarks: across a wide range of upscaling factors, it delivers sharper and temporally more consistent reconstructions than existing baselines, while being computationally more efficient. Project page: https://v3vsr.github.io.
- Abstract(参考訳): 連続時空ビデオ超解像のための新しい定式化法を提案する。
ビデオシーケンスの表現を別々に空間的・時間的要素に分離する代わりに,映像を連続的かつ時空間的に整合した3Dビデオフーリエ場(VFF)として符号化する。
この表現は,(1)空間と時間における任意の位置における安価で柔軟なサンプリングを可能にすること,(2)細かな空間的詳細と滑らかな時間的ダイナミクスを同時に捉えること,(3)サンプリングに解析的,ガウス的点展開関数を組み込むことにより,任意のスケールでエイリアスのない再構成を実現すること,の3つの利点を提供する。
提案したフーリエ様正弦波基底の係数は,低解像度の入力ビデオに基づいて,時空間の大きいニューラルエンコーダを用いて予測する。
広範にわたる実験により、我々の共同モデリングは、空間的および時間的両方の超解像を著しく改善し、複数のベンチマークに対して新しい最先端の状態を設定できることが示される: 広範囲なアップスケーリング要因にわたって、既存のベースラインよりもシャープで時間的に整合性のある再構築を実現し、計算的により効率的である。
プロジェクトページ: https://v3vsr.github.io
関連論文リスト
- FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction [64.30050475414947]
FreeTimeGSはガウスのプリミティブを任意の時間と位置で表示できる新しい4D表現である。
我々の表現は強い柔軟性を持ち、ダイナミックな3Dシーンをモデル化する能力を向上させる。
いくつかのデータセットに対する実験結果から,本手法のレンダリング品質は,最近の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2025-06-05T17:59:57Z) - BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.082598088990352]
ビデオの空間的特徴と時間的特徴をよりよく表現するために,2つのキーモジュールを備えたC-STVSRフレームワークであるBF-STVSRを提案する。
提案手法は,PSNR や SSIM など様々な指標の最先端性を実現し,空間的詳細化や時間的整合性の向上を図っている。
論文 参考訳(メタデータ) (2025-01-19T13:29:41Z) - Fast Fourier Inception Networks for Occluded Video Prediction [16.99757795577547]
ビデオ予測は、過去のフレームを用いて将来のフレームを生成するピクセルレベルのタスクである。
ビデオ予測のための完全畳み込み型高速フーリエネットワークである itFFINet を開発した。
論文 参考訳(メタデータ) (2023-06-17T13:27:29Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Towards Interpretable Video Super-Resolution via Alternating
Optimization [115.85296325037565]
低フレームのぼかしビデオから高フレームの高解像度のシャープビデオを生成することを目的とした実時間ビデオ超解法(STVSR)問題について検討する。
本稿では,モデルベースと学習ベースの両方の手法を用いて,解釈可能なSTVSRフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T21:34:05Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Temporal-Spatial Feature Pyramid for Video Saliency Detection [2.578242050187029]
ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
論文 参考訳(メタデータ) (2021-05-10T09:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。