論文の概要: Blur-aware Spatio-temporal Sparse Transformer for Video Deblurring
- arxiv url: http://arxiv.org/abs/2406.07551v1
- Date: Tue, 11 Jun 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 14:26:16.177392
- Title: Blur-aware Spatio-temporal Sparse Transformer for Video Deblurring
- Title(参考訳): ビデオデブロアリング用ブラア対応時空間スパルス変圧器
- Authors: Huicong Zhang, Haozhe Xie, Hongxun Yao,
- Abstract要約: 本稿では、browbfBSSTNet, textbfBlur-aware textbfStext-temporal textbfTransformer Networkを提案する。
提案したBSSTNetは、GoProやDVDのデータセットで最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 14.839956958725883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video deblurring relies on leveraging information from other frames in the video sequence to restore the blurred regions in the current frame. Mainstream approaches employ bidirectional feature propagation, spatio-temporal transformers, or a combination of both to extract information from the video sequence. However, limitations in memory and computational resources constraints the temporal window length of the spatio-temporal transformer, preventing the extraction of longer temporal contextual information from the video sequence. Additionally, bidirectional feature propagation is highly sensitive to inaccurate optical flow in blurry frames, leading to error accumulation during the propagation process. To address these issues, we propose \textbf{BSSTNet}, \textbf{B}lur-aware \textbf{S}patio-temporal \textbf{S}parse \textbf{T}ransformer Network. It introduces the blur map, which converts the originally dense attention into a sparse form, enabling a more extensive utilization of information throughout the entire video sequence. Specifically, BSSTNet (1) uses a longer temporal window in the transformer, leveraging information from more distant frames to restore the blurry pixels in the current frame. (2) introduces bidirectional feature propagation guided by blur maps, which reduces error accumulation caused by the blur frame. The experimental results demonstrate the proposed BSSTNet outperforms the state-of-the-art methods on the GoPro and DVD datasets.
- Abstract(参考訳): ビデオの劣化は、現在のフレームのぼやけた領域を復元するために、ビデオシーケンス内の他のフレームの情報を活用することに依存する。
メインストリームアプローチでは、双方向の特徴伝搬、時空間変換器、あるいはその両方を組み合わせてビデオシーケンスから情報を抽出する。
しかし、メモリと計算資源の制限により、時空間変換器の時間窓長が制限され、ビデオシーケンスからの時間コンテキスト情報の抽出が防止される。
さらに、双方向の特徴伝搬は、ぼやけたフレーム内の不正確な光の流れに非常に敏感であり、伝播過程中にエラーの蓄積を引き起こす。
これらの問題に対処するため、我々は \textbf{BSSTNet}, \textbf{B}lur-aware \textbf{S}patio-temporal \textbf{S}parse \textbf{T}ransformer Networkを提案する。
ブラーマップを導入し、元々の濃密な注意をスパース形式に変換し、ビデオシーケンス全体を通して情報をより広範囲に活用できるようにする。
具体的には、BSSTNet(1)は、より遠方のフレームからの情報を利用して、現在のフレームのぼやけたピクセルを復元する。
2) ブラーマップによって誘導される双方向の特徴伝搬を導入し, ブラーフレームによる誤差の蓄積を低減する。
実験の結果,提案したBSSTNetは,GoProおよびDVDデータセットの最先端手法よりも優れていた。
関連論文リスト
- Revitalizing Legacy Video Content: Deinterlacing with Bidirectional
Information Propagation [14.340811078427553]
本稿では,アニメーションとライブアクションの映像コンテンツを挿入するディープラーニングに基づく手法を提案する。
提案手法は,複数スケールにわたる双方向情報伝搬を支援する。
提案手法は,複数フィールドを同時に処理し,フレーム単位の時間を短縮し,リアルタイム処理を可能にする。
論文 参考訳(メタデータ) (2023-10-30T13:43:19Z) - Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - ProPainter: Improving Propagation and Transformer for Video Inpainting [98.70898369695517]
フローベース伝播と計算変換器はビデオインテンポラルにおける2つの主流メカニズムである(VI)
我々は、画像と特徴のワープの利点を組み合わせた二重領域の伝搬を導入し、グローバルな対応を確実に活用する。
また,冗長なトークンを破棄することで高効率を実現するマスク誘導スパースビデオトランスも提案する。
論文 参考訳(メタデータ) (2023-09-07T17:57:29Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Across Scales & Across Dimensions: Temporal Super-Resolution using Deep
Internal Learning [11.658606722158517]
我々は、低フレームの入力ビデオから直接抽出した例に基づいて、ビデオ固有のCNNを訓練する。
提案手法は,単一ビデオシーケンス内の小さな時空間パッチの強い再帰性を利用する。
ビデオフレームの高解像度化は、そのビデオの時間分解能を高めるための強力な例を提供する。
論文 参考訳(メタデータ) (2020-03-19T15:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。