論文の概要: DualX-VSR: Dual Axial Spatial$\times$Temporal Transformer for Real-World Video Super-Resolution without Motion Compensation
- arxiv url: http://arxiv.org/abs/2506.04830v1
- Date: Thu, 05 Jun 2025 09:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.642023
- Title: DualX-VSR: Dual Axial Spatial$\times$Temporal Transformer for Real-World Video Super-Resolution without Motion Compensation
- Title(参考訳): DualX-VSR:Dual Axial Space$\times$Temporal Transformer for Real-World Video Super-Resolution without Motion Compensation
- Authors: Shuo Cao, Yihao Liu, Xiaohui Li. Yuanting Gao. Yu Zhou, Chao Dong,
- Abstract要約: ViTやTimeSformerのようなトランスフォーマーベースのモデルは、時間的依存関係を効果的にモデル化することで、高度なビデオ理解を実現する。
これらのモデルは、実世界の超解像(VSR)に直接適用される
VSRは高いレベルの精度を必要としており、トークン化とシーケンシャルな注意機構によって妥協することができる。
実世界ビデオ解像度(DualX-VSR)のためのAxial Dual Spatial$times$ Transformerを提案する。
- 参考スコア(独自算出の注目度): 13.861335474733954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models like ViViT and TimeSformer have advanced video understanding by effectively modeling spatiotemporal dependencies. Recent video generation models, such as Sora and Vidu, further highlight the power of transformers in long-range feature extraction and holistic spatiotemporal modeling. However, directly applying these models to real-world video super-resolution (VSR) is challenging, as VSR demands pixel-level precision, which can be compromised by tokenization and sequential attention mechanisms. While recent transformer-based VSR models attempt to address these issues using smaller patches and local attention, they still face limitations such as restricted receptive fields and dependence on optical flow-based alignment, which can introduce inaccuracies in real-world settings. To overcome these issues, we propose Dual Axial Spatial$\times$Temporal Transformer for Real-World Video Super-Resolution (DualX-VSR), which introduces a novel dual axial spatial$\times$temporal attention mechanism that integrates spatial and temporal information along orthogonal directions. DualX-VSR eliminates the need for motion compensation, offering a simplified structure that provides a cohesive representation of spatiotemporal information. As a result, DualX-VSR achieves high fidelity and superior performance in real-world VSR task.
- Abstract(参考訳): ViViTやTimeSformerのようなトランスフォーマーベースのモデルは、時空間依存を効果的にモデル化することで、高度なビデオ理解を実現する。
ソラやヴィドゥのような最近のビデオ生成モデルは、長距離特徴抽出と全時空間モデリングにおけるトランスフォーマーのパワーをさらに強調している。
しかしながら、VSRはトークン化とシーケンシャルアテンション機構によって妥協されるピクセルレベルの精度を要求するため、これらのモデルを実世界のビデオ超解像(VSR)に直接適用することは困難である。
最近のトランスフォーマーベースのVSRモデルは、より小さなパッチと局所的な注意を使ってこれらの問題に対処しようとするが、しかしながら、制限された受容場や光フローベースのアライメントへの依存といった制限に直面している。
これらの問題を克服するために,2軸空間$\times$Temporal Transformer for Real-World Video Super-Resolution (DualX-VSR)を提案する。
DualX-VSRは運動補償の必要性を排除し、時空間情報の凝集表現を提供する単純化された構造を提供する。
その結果、DualX-VSRは実世界のVSRタスクにおいて高い忠実度と優れた性能を達成する。
関連論文リスト
- UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.43409853027655]
UltraVSRは、超現実的で時間的コヒーレントなVSRを可能にするフレームワークである。
DRSは、分解過程を低解像度から高解像度のビデオから一段階の再構成に変換する。
RTSモジュールは、事前訓練されたテキスト-画像拡散モデルに統合される。
論文 参考訳(メタデータ) (2025-05-26T13:19:27Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task [20.16344973940904]
高分解能リモートセンシング分析は、シーンの複雑さとスケールの多様性による課題に直面している。
逐次処理と2次元空間推論を橋渡しする新しい2D-WKVスキャン機構を特徴とするSRWKVを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:03:46Z) - STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution [42.859188375578604]
画像拡散モデルは、GAN法における過平滑化問題に対処するために、実世界のビデオ超解像に適応している。
これらのモデルは静的イメージでトレーニングされるため、時間的一貫性を維持するのに苦労する。
我々は,現実的な空間的詳細と強靭な時間的整合性を達成し,T2Vモデルを現実の超解像に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T12:36:21Z) - Spatio-Temporal Distortion Aware Omnidirectional Video Super-Resolution [25.615935776826596]
分解能を高めるためにビデオ超解像(SR)が提案されているが、実際のODV空間射影歪みと時間的フレッカリングは、既存の手法を直接的に適用するには十分ではない。
本研究では, ODV-SR の再現性を向上させるため, ODV 特性を指向した時空間歪み認識ネットワーク (STDAN) を提案する。
論文 参考訳(メタデータ) (2024-10-15T11:17:19Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。