論文の概要: Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events
- arxiv url: http://arxiv.org/abs/2510.03833v1
- Date: Sat, 04 Oct 2025 15:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.285102
- Title: Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events
- Title(参考訳): イベントによるロバストかつ一般化可能な連続時空ビデオ超解法を目指して
- Authors: Shuoyan Wei, Feng Li, Shengeng Tang, Runmin Cong, Yao Zhao, Meng Wang, Huihui Bai,
- Abstract要約: 連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 71.2439653098351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous space-time video super-resolution (C-STVSR) has garnered increasing interest for its capability to reconstruct high-resolution and high-frame-rate videos at arbitrary spatial and temporal scales. However, prevailing methods often generalize poorly, producing unsatisfactory results when applied to out-of-distribution (OOD) scales. To overcome this limitation, we present EvEnhancer, a novel approach that marries the unique properties of high temporal resolution and high dynamic range encapsulated in event streams to achieve robust and generalizable C-STVSR. Our approach incorporates event-adapted synthesis that capitalizes on the spatiotemporal correlations between frames and events to capture long-term motion trajectories, enabling adaptive interpolation and fusion across space and time. This is then coupled with a local implicit video transformer that integrates local implicit video neural function with cross-scale spatiotemporal attention to learn continuous video representations and generate plausible videos at arbitrary resolutions and frame rates. We further develop EvEnhancerPlus, which builds a controllable switching mechanism that dynamically determines the reconstruction difficulty for each spatiotemporal pixel based on local event statistics. This allows the model to adaptively route reconstruction along the most suitable pathways at a fine-grained pixel level, substantially reducing computational overhead while maintaining excellent performance. Furthermore, we devise a cross-derivative training strategy that stabilizes the convergence of such a multi-pathway framework through staged cross-optimization. Extensive experiments demonstrate that our method achieves state-of-the-art performance on both synthetic and real-world datasets, while maintaining superior generalizability at OOD scales. The code is available at https://github.com/W-Shuoyan/EvEnhancerPlus.
- Abstract(参考訳): 連続時空ビデオ超解像(C-STVSR)は、任意の空間的・時間的スケールで高解像度・高フレーム映像を再構成する能力に対する関心が高まっている。
しかし、一般的な方法はしばしば一般化が悪く、アウト・オブ・ディストリビューション(OOD)スケールに適用すると不満足な結果をもたらす。
この制限を克服するために、イベントストリームにカプセル化される高時間分解能と高ダイナミックレンジのユニークな特性を結合して、堅牢で一般化可能なC-STVSRを実現する新しいアプローチであるEvEnhancerを提案する。
提案手法は,フレームとイベント間の時空間相関を利用して,長期運動軌跡を捕捉するイベント適応合成を取り入れ,空間と時間にわたって適応的な補間と融合を可能にする。
このことは、局所的な暗黙ビデオ変換器と結合され、局所的な暗黙ビデオニューラル関数とクロススケールな時空間的注意を統合して、連続的なビデオ表現を学び、任意の解像度とフレームレートで可視ビデオを生成する。
さらにEvEnhancerPlusを開発し、ローカルイベント統計に基づいて各時空間画素の再構成難度を動的に判定する制御可能なスイッチング機構を構築した。
これにより、微細なピクセルレベルで最も適切な経路に沿って再構成を適応的にルーティングすることができ、優れた性能を維持しながら計算オーバーヘッドを大幅に低減することができる。
さらに、段階的クロス最適化により、そのような多経路フレームワークの収束を安定化するクロスデリバティブなトレーニング戦略を考案する。
大規模な実験により,OODスケールでの優れた一般化性を維持しつつ,合成データセットと実世界のデータセットの両方で最先端の性能を達成できることが実証された。
コードはhttps://github.com/W-Shuoyan/EvEnhancerPlus.comで公開されている。
関連論文リスト
- VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - HR-INR: Continuous Space-Time Video Super-Resolution via Event Camera [23.121972339114322]
連続時空ビデオ超解像(C-STVSR)は、任意のスケールでビデオ解像度とフレームレートを同時に向上することを目的としている。
暗黙の神経表現(INR)はビデオ復元に応用され、ビデオは任意のスケールでデコードできる暗黙のフィールドとして表現されている。
HR-INRという新しいC-STVSRフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-22T06:51:32Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z) - Enhancing Space-time Video Super-resolution via Spatial-temporal Feature Interaction [11.041058494002467]
時空ビデオ超解像(STVSR)の目的は、ビデオのフレームレートと空間解像度の両方を増加させることである。
近年のアプローチでは、エンドツーエンドのディープニューラルネットワークを用いてSTVSRを解く。
本研究では,空間的・時間的相関を利用してSTVSRを強化する空間的・時間的特徴相互作用ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-18T22:10:57Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。