論文の概要: Small Clips, Big Gains: Learning Long-Range Refocused Temporal Information for Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2505.02159v1
- Date: Sun, 04 May 2025 15:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.458797
- Title: Small Clips, Big Gains: Learning Long-Range Refocused Temporal Information for Video Super-Resolution
- Title(参考訳): 小さなクリップと大きなゲイン:ビデオスーパーリゾリューションのためのロングレンジな時間情報学習
- Authors: Xingyu Zhou, Wei Long, Jingbo Lu, Shiyin Jiang, Weiyi You, Haifeng Wu, Shuhang Gu,
- Abstract要約: ビデオ超解像(VSR)は、時間情報を活用することにより、単一画像超解像よりも優れた性能が得られる。
本稿では,Long-Range Re Focus Temporal Information を有効活用する VSR 再帰学習フレームワーク LRTI-VSR を提案する。
我々のフレームワークは、短いビデオクリップのトレーニング中に長いビデオクリップからの時間的伝搬機能を利用する一般的なトレーニング戦略を含んでいる。
- 参考スコア(独自算出の注目度): 20.07870850150666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video super-resolution (VSR) can achieve better performance compared to single image super-resolution by additionally leveraging temporal information. In particular, the recurrent-based VSR model exploits long-range temporal information during inference and achieves superior detail restoration. However, effectively learning these long-term dependencies within long videos remains a key challenge. To address this, we propose LRTI-VSR, a novel training framework for recurrent VSR that efficiently leverages Long-Range Refocused Temporal Information. Our framework includes a generic training strategy that utilizes temporal propagation features from long video clips while training on shorter video clips. Additionally, we introduce a refocused intra&inter-frame transformer block which allows the VSR model to selectively prioritize useful temporal information through its attention module while further improving inter-frame information utilization in the FFN module. We evaluate LRTI-VSR on both CNN and transformer-based VSR architectures, conducting extensive ablation studies to validate the contribution of each component. Experiments on long-video test sets demonstrate that LRTI-VSR achieves state-of-the-art performance while maintaining training and computational efficiency.
- Abstract(参考訳): ビデオ超解像(VSR)は、時間情報を活用することで、単一画像超解像よりも優れた性能を実現することができる。
特に、リカレントベースのVSRモデルは、推論中に長距離時間情報を利用し、より優れた詳細復元を実現する。
しかし、長いビデオの中でこれらの長期的な依存関係を効果的に学習することは、依然として重要な課題である。
そこで本研究では,Long-Range Re Focus Temporal Informationを有効活用する,VSRのリカレントトレーニングフレームワークであるLRTI-VSRを提案する。
我々のフレームワークは、短いビデオクリップのトレーニング中に長いビデオクリップからの時間的伝搬機能を利用する一般的なトレーニング戦略を含んでいる。
さらに,VSRモデルでは,フレーム間情報利用の改善を図りつつ,注目モジュールを介して有用な時間情報を選択的に優先順位付けすることが可能な,フレーム内およびフレーム間トランスフォーマブロックを導入する。
LRTI-VSRをCNNとトランスフォーマーベースのVSRアーキテクチャの両方で評価し、各コンポーネントの寄与を検証するために広範囲にわたるアブレーション研究を行った。
LRTI-VSRは、トレーニングと計算効率を維持しつつ、最先端の性能を達成することを示す。
関連論文リスト
- Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - Time-series Initialization and Conditioning for Video-agnostic Stabilization of Video Super-Resolution using Recurrent Networks [13.894981567082997]
ビデオスーパーレゾリューション(VSR)のためのリカレントニューラルネットワーク(RNN)は、通常ランダムにクリップされ、トリミングされた短いビデオで訓練される。
このRNNは超解像ショートビデオに最適化されているため、長いビデオのVSRはドメインギャップのために劣化する。
本稿では,VSRにおけるRNNのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-03-23T13:16:07Z) - Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention [46.74923772450212]
Vision Transformerは、低解像度のシーケンスで欠落した詳細を復元することに成功した。
VSRの精度が優れているにもかかわらず、計算負荷と大きなメモリフットプリントはトランスフォーマーベースのVSRモデルの展開を妨げる。
マスク内およびフレーム間アテンション(MIA-VSR)を用いた新しい特徴レベルマスキング処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-12T00:49:49Z) - Temporal Consistency Learning of inter-frames for Video Super-Resolution [38.26035126565062]
ビデオ超解像(VSR)は、低解像度(LR)参照フレームと複数の隣接フレームから高解像度(HR)フレームを再構成することを目的としたタスクである。
既存の手法は一般に情報伝達とフレームアライメントを探求し、VSRの性能を向上させる。
本稿では,再建されたビデオの一貫性を高めるため,VSRのための時間一貫性学習ネットワーク(TCNet)を提案する。
論文 参考訳(メタデータ) (2022-11-03T08:23:57Z) - Sliding Window Recurrent Network for Efficient Video Super-Resolution [0.0]
ビデオ超解像(VSR)は、高解像度のフレームを低解像度の入力列から復元するタスクである。
本研究では,テキストスライディングウィンドウをベースとしたリカレントネットワーク(SWRN)を提案する。
筆者らはREDSデータセットを用いて,提案手法をモバイルデバイスに適用し,視覚的に快適な結果が得られることを示した。
論文 参考訳(メタデータ) (2022-08-24T15:23:44Z) - Self-Supervised Adaptation for Video Super-Resolution [7.26562478548988]
シングルイメージスーパーリゾリューション(SISR)ネットワークは、特定の入力画像にネットワークパラメータを適応させることができます。
従来のビデオスーパーレゾリューション(VSR)ネットワークがビデオフレームをテストするためにパラメータを適応できるようにする新しい学習アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-03-18T08:30:24Z) - BasicVSR: The Search for Essential Components in Video Super-Resolution
and Beyond [75.62146968824682]
ビデオ超解像(VSR)アプローチは、画像よりも多くのコンポーネントを持つ傾向がある。
高速化と回復性の向上を図った簡潔なパイプライン「BasicVSR」について述べる。
論文 参考訳(メタデータ) (2020-12-03T18:56:14Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。