論文の概要: Flow-Guided Sparse Transformer for Video Deblurring
- arxiv url: http://arxiv.org/abs/2201.01893v1
- Date: Thu, 6 Jan 2022 02:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 15:11:45.370276
- Title: Flow-Guided Sparse Transformer for Video Deblurring
- Title(参考訳): ビデオ分解用フローガイドスパース変圧器
- Authors: Jing Lin, Yuanhao Cai, Xiaowan Hu, Haoqian Wang, Youliang Yan, Xueyi
Zou, Henghui Ding, Yulun Zhang, Radu Timofte, Luc Van Gool
- Abstract要約: FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
- 参考スコア(独自算出の注目度): 124.11022871999423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploiting similar and sharper scene patches in spatio-temporal neighborhoods
is critical for video deblurring. However, CNN-based methods show limitations
in capturing long-range dependencies and modeling non-local self-similarity. In
this paper, we propose a novel framework, Flow-Guided Sparse Transformer
(FGST), for video deblurring. In FGST, we customize a self-attention module,
Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA). For each
$query$ element on the blurry reference frame, FGSW-MSA enjoys the guidance of
the estimated optical flow to globally sample spatially sparse yet highly
related $key$ elements corresponding to the same scene patch in neighboring
frames. Besides, we present a Recurrent Embedding (RE) mechanism to transfer
information from past frames and strengthen long-range temporal dependencies.
Comprehensive experiments demonstrate that our proposed FGST outperforms
state-of-the-art (SOTA) methods on both DVD and GOPRO datasets and even yields
more visually pleasing results in real video deblurring. Code and models will
be released to the public.
- Abstract(参考訳): 時空間近傍における類似したシャープなシーンパッチの活用は,ビデオデブラリングにおいて重要である。
しかし、cnnベースの手法では、長距離依存性の捕捉と非局所的自己相似性のモデリングに制限がある。
本稿では,FGST(Flow-Guided Sparse Transformer)という新しいフレームワークを提案する。
FGSTでは,FGSW-MSA(Flow-Guided Sparse Window-based Multi-head Self-Attention)をカスタマイズする。
ぼやけた参照フレーム上の$query$要素ごとに、FGSW-MSAは推定された光フローのガイダンスを楽しみ、隣接するフレームの同じシーンパッチに対応する、空間的にスパースで高関連性の高い$key$要素を世界中にサンプリングする。
さらに,過去のフレームから情報を転送し,長期の時間依存性を強化するリカレント埋め込み(re)機構を提案する。
総合的な実験により,提案するfgstはdvdおよびgoproのデータセットにおいて最先端(sota)メソッドよりも優れており,より視覚的な評価結果が得られることを示した。
コードとモデルは一般公開される予定だ。
関連論文リスト
- SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition [18.542942459854867]
従来のデータ駆動研究には大量のビデオサンプルが継続的に必要である。
本稿では,Stemp-Oral frAme tuwenle (SOAP) と呼ばれるアクション認識のための新しいプラグイン・アンド・プレイアーキテクチャを提案する。
SOAP-Netは、SthSthV2、Kineetics、UCF101、SOAP51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成します。
論文 参考訳(メタデータ) (2024-07-23T09:45:25Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。