Fugu-MT 論文翻訳(概要): Aggregating Long-term Sharp Features via Hybrid Transformers for Video Deblurring

論文の概要: Aggregating Long-term Sharp Features via Hybrid Transformers for Video Deblurring

arxiv url: http://arxiv.org/abs/2309.07054v1
Date: Wed, 13 Sep 2023 16:12:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 13:41:16.359665
Title: Aggregating Long-term Sharp Features via Hybrid Transformers for Video Deblurring
Title（参考訳）: ビデオ分解用ハイブリッド変圧器による長期シャープ特性の集約
Authors: Dongwei Ren, Wei Shang, Yi Yang and Wangmeng Zuo
Abstract要約: 本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
参考スコア（独自算出の注目度）: 76.54162653678871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video deblurring methods, aiming at recovering consecutive sharp frames from a given blurry video, usually assume that the input video suffers from consecutively blurry frames. However, in real-world blurry videos taken by modern imaging devices, sharp frames usually appear in the given video, thus making temporal long-term sharp features available for facilitating the restoration of a blurry frame. In this work, we propose a video deblurring method that leverages both neighboring frames and present sharp frames using hybrid Transformers for feature aggregation. Specifically, we first train a blur-aware detector to distinguish between sharp and blurry frames. Then, a window-based local Transformer is employed for exploiting features from neighboring frames, where cross attention is beneficial for aggregating features from neighboring frames without explicit spatial alignment. To aggregate long-term sharp features from detected sharp frames, we utilize a global Transformer with multi-scale matching capability. Moreover, our method can easily be extended to event-driven video deblurring by incorporating an event fusion module into the global Transformer. Extensive experiments on benchmark datasets demonstrate that our proposed method outperforms state-of-the-art video deblurring methods as well as event-driven video deblurring methods in terms of quantitative metrics and visual quality. The source code and trained models are available at https://github.com/shangwei5/STGTN.
Abstract（参考訳）: あるぼやけたビデオから連続的にシャープなフレームを復元することを目的としたビデオデブロアリング法は、通常、入力されたビデオが連続的にぼやけたフレームに苦しむと仮定する。しかし、現代の画像装置が撮影した現実世界のぼやけたビデオでは、シャープなフレームが与えられたビデオに通常現れるため、時間的長期的シャープな特徴は、ぼやけたフレームの復元を容易にする。本研究では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。具体的には、まず、シャープフレームとぼやけたフレームを区別するぼかし検知器を訓練する。次に、隣接するフレームから特徴を活用し、明示的な空間的アライメントを必要とせず隣のフレームから特徴を集約するのにクロス注意が有用であるウィンドウベースのローカルトランスを用いる。検出したシャープフレームから長時間のシャープ特徴を集約するために,マルチスケールマッチング機能を備えたグローバルトランスを利用する。さらに, イベント融合モジュールをグローバルトランスフォーマーに組み込むことで, イベント駆動型ビデオデブロアリングに容易に拡張することができる。ベンチマークデータセットの大規模な実験により,提案手法は,定量的な測定値と視覚的品質の点から,最先端のビデオデブロアリング法およびイベント駆動ビデオデブロアリング法より優れていることが示された。ソースコードとトレーニングされたモデルはhttps://github.com/shangwei5/STGTNで入手できる。

関連論文リスト

ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文参考訳（メタデータ） (2024-10-08T03:01:54Z)
CMTA: Cross-Modal Temporal Alignment for Event-guided Video Deblurring [44.30048301161034]
ビデオデブロアリングは、隣接するビデオフレームから情報を集めることで、モーションレッドビデオの復元結果の品質を高めることを目的としている。 1) フレーム内機能拡張は, 単一のぼやけたフレームの露出時間内で動作し, 2) フレーム間時間的特徴アライメントは, 重要な長期時間情報を対象のフレームに収集する。提案手法は, 合成および実世界のデブロアリングデータセットを用いた広範囲な実験により, 最先端のフレームベースおよびイベントベース動作デブロアリング法より優れていることを示す。
論文参考訳（メタデータ） (2024-08-27T10:09:17Z)
Burstormer: Burst Image Restoration and Enhancement Transformer [117.56199661345993]
シャッタープレスでは、現代のハンドヘルドカメラが高速に複数の画像をキャプチャし、それらをマージして単一の画像を生成する。課題は、連続したイメージショットを適切に調整し、その補完的な情報をマージして高品質な出力を達成することである。バーストラー(Burstormer)はバースト画像の復元と拡張のためのトランスフォーマーをベースとした新しいアーキテクチャである。
論文参考訳（メタデータ） (2023-04-03T17:58:44Z)
SATVSR: Scenario Adaptive Transformer for Cross Scenarios Video Super-Resolution [0.0]
Video Super-Resolutionは、高解像度(HR)フレームのシーケンスを低解像度(LR)フレームから復元することを目的としている。従来は、主に時間的に隣接したフレームを使用して、ターゲットフレームの再構築を支援していた。我々は,新しい適応シナリオビデオ超解法を考案した。具体的には,光流を用いて各映像フレームのパッチをラベル付けし,同一ラベルでパッチの注意を計算し,その中の最も関連性の高いラベルを選択して,対象フレームの時空間情報を補足する。
論文参考訳（メタデータ） (2022-11-16T06:30:13Z)
E-VFIA : Event-Based Video Frame Interpolation with Attention [8.93294761619288]
軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。 E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
論文参考訳（メタデータ） (2022-09-19T21:40:32Z)
TTVFI: Learning Trajectory-Aware Transformer for Video Frame Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文参考訳（メタデータ） (2022-07-19T03:37:49Z)
VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文参考訳（メタデータ） (2022-01-28T17:54:43Z)
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文参考訳（メタデータ） (2021-11-25T18:02:12Z)
Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文参考訳（メタデータ） (2021-08-25T05:12:14Z)
ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文参考訳（メタデータ） (2021-03-07T04:33:13Z)
Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文参考訳（メタデータ） (2021-03-04T12:18:25Z)
ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2020-08-31T21:11:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。