論文の概要: Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring
- arxiv url: http://arxiv.org/abs/2309.07054v1
- Date: Wed, 13 Sep 2023 16:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 13:41:16.359665
- Title: Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring
- Title(参考訳): ビデオ分解用ハイブリッド変圧器による長期シャープ特性の集約
- Authors: Dongwei Ren, Wei Shang, Yi Yang and Wangmeng Zuo
- Abstract要約: 本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
- 参考スコア(独自算出の注目度): 76.54162653678871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video deblurring methods, aiming at recovering consecutive sharp frames from
a given blurry video, usually assume that the input video suffers from
consecutively blurry frames. However, in real-world blurry videos taken by
modern imaging devices, sharp frames usually appear in the given video, thus
making temporal long-term sharp features available for facilitating the
restoration of a blurry frame. In this work, we propose a video deblurring
method that leverages both neighboring frames and present sharp frames using
hybrid Transformers for feature aggregation. Specifically, we first train a
blur-aware detector to distinguish between sharp and blurry frames. Then, a
window-based local Transformer is employed for exploiting features from
neighboring frames, where cross attention is beneficial for aggregating
features from neighboring frames without explicit spatial alignment. To
aggregate long-term sharp features from detected sharp frames, we utilize a
global Transformer with multi-scale matching capability. Moreover, our method
can easily be extended to event-driven video deblurring by incorporating an
event fusion module into the global Transformer. Extensive experiments on
benchmark datasets demonstrate that our proposed method outperforms
state-of-the-art video deblurring methods as well as event-driven video
deblurring methods in terms of quantitative metrics and visual quality. The
source code and trained models are available at
https://github.com/shangwei5/STGTN.
- Abstract(参考訳): あるぼやけたビデオから連続的にシャープなフレームを復元することを目的としたビデオデブロアリング法は、通常、入力されたビデオが連続的にぼやけたフレームに苦しむと仮定する。
しかし、現代の画像装置が撮影した現実世界のぼやけたビデオでは、シャープなフレームが与えられたビデオに通常現れるため、時間的長期的シャープな特徴は、ぼやけたフレームの復元を容易にする。
本研究では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
具体的には、まず、シャープフレームとぼやけたフレームを区別するぼかし検知器を訓練する。
次に、隣接するフレームから特徴を活用し、明示的な空間的アライメントを必要とせず隣のフレームから特徴を集約するのにクロス注意が有用であるウィンドウベースのローカルトランスを用いる。
検出したシャープフレームから長時間のシャープ特徴を集約するために,マルチスケールマッチング機能を備えたグローバルトランスを利用する。
さらに, イベント融合モジュールをグローバルトランスフォーマーに組み込むことで, イベント駆動型ビデオデブロアリングに容易に拡張することができる。
ベンチマークデータセットの大規模な実験により,提案手法は,定量的な測定値と視覚的品質の点から,最先端のビデオデブロアリング法およびイベント駆動ビデオデブロアリング法より優れていることが示された。
ソースコードとトレーニングされたモデルはhttps://github.com/shangwei5/STGTNで入手できる。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - CMTA: Cross-Modal Temporal Alignment for Event-guided Video Deblurring [44.30048301161034]
ビデオデブロアリングは、隣接するビデオフレームから情報を集めることで、モーションレッドビデオの復元結果の品質を高めることを目的としている。
1) フレーム内機能拡張は, 単一のぼやけたフレームの露出時間内で動作し, 2) フレーム間時間的特徴アライメントは, 重要な長期時間情報を対象のフレームに収集する。
提案手法は, 合成および実世界のデブロアリングデータセットを用いた広範囲な実験により, 最先端のフレームベースおよびイベントベース動作デブロアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-27T10:09:17Z) - SATVSR: Scenario Adaptive Transformer for Cross Scenarios Video
Super-Resolution [0.0]
Video Super-Resolutionは、高解像度(HR)フレームのシーケンスを低解像度(LR)フレームから復元することを目的としている。
従来は、主に時間的に隣接したフレームを使用して、ターゲットフレームの再構築を支援していた。
我々は,新しい適応シナリオビデオ超解法を考案した。具体的には,光流を用いて各映像フレームのパッチをラベル付けし,同一ラベルでパッチの注意を計算し,その中の最も関連性の高いラベルを選択して,対象フレームの時空間情報を補足する。
論文 参考訳(メタデータ) (2022-11-16T06:30:13Z) - E-VFIA : Event-Based Video Frame Interpolation with Attention [8.93294761619288]
軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。
E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。
提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
論文 参考訳(メタデータ) (2022-09-19T21:40:32Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。