論文の概要: Rethinking Alignment in Video Super-Resolution Transformers
- arxiv url: http://arxiv.org/abs/2207.08494v1
- Date: Mon, 18 Jul 2022 10:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:14:30.636469
- Title: Rethinking Alignment in Video Super-Resolution Transformers
- Title(参考訳): ビデオ超解像変換器のアライメント再考
- Authors: Shuwei Shi, Jinjin Gu, Liangbin Xie, Xintao Wang, Yujiu Yang, Chao
Dong
- Abstract要約: 隣接フレームのアライメントはビデオ超解像(VSR)において不可欠な操作であると考えられる
本稿では、VSR変換器におけるアライメントの役割を再考し、いくつかの反直観的な観察を行う。
画素の代わりに画像パッチをアライメントするパッチアライメント法を提案する。
- 参考スコア(独自算出の注目度): 35.95141593431358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alignment of adjacent frames is considered an essential operation in
video super-resolution (VSR). Advanced VSR models, including the latest VSR
Transformers, are generally equipped with well-designed alignment modules.
However, the progress of the self-attention mechanism may violate this common
sense. In this paper, we rethink the role of alignment in VSR Transformers and
make several counter-intuitive observations. Our experiments show that: (i) VSR
Transformers can directly utilize multi-frame information from unaligned
videos, and (ii) existing alignment methods are sometimes harmful to VSR
Transformers. These observations indicate that we can further improve the
performance of VSR Transformers simply by removing the alignment module and
adopting a larger attention window. Nevertheless, such designs will
dramatically increase the computational burden, and cannot deal with large
motions. Therefore, we propose a new and efficient alignment method called
patch alignment, which aligns image patches instead of pixels. VSR Transformers
equipped with patch alignment could demonstrate state-of-the-art performance on
multiple benchmarks. Our work provides valuable insights on how multi-frame
information is used in VSR and how to select alignment methods for different
networks/datasets. Codes and models will be released at
https://github.com/XPixelGroup/RethinkVSRAlignment.
- Abstract(参考訳): 隣接するフレームのアライメントは、ビデオ超解像(VSR)において必須の操作であると考えられている。
最新のVSRトランスを含む先進的なVSRモデルは、一般的によく設計されたアライメントモジュールを備えている。
しかし、自己認識機構の進歩はこの常識に反する可能性がある。
本稿では,vsrトランスフォーマーにおけるアライメントの役割を再考し,いくつかの反直観的な観察を行う。
私たちの実験では、
(i)VSRトランスフォーマーは、不整合ビデオから直接多フレーム情報を利用することができ、
(ii)既存のアライメント法はVSR変換器に有害であることがある。
これらの結果は,アライメントモジュールを除去し,より大きなアライメントウインドウを採用することで,VSRトランスフォーマーの性能を向上できることを示唆している。
しかし、そのような設計は計算負荷を劇的に増加させ、大きな動きには対処できない。
そこで本稿では,画素ではなく画像パッチをアライメントするパッチアライメントと呼ばれる新しい効率的なアライメント手法を提案する。
パッチアライメントを備えたVSRトランスフォーマーは、複数のベンチマークで最先端の性能を示すことができた。
我々の研究は、VSRにおけるマルチフレーム情報の使用方法や、異なるネットワーク/データセットのアライメント方法の選択方法に関する貴重な洞察を提供する。
コードとモデルはhttps://github.com/xpixelgroup/rethinkvsralignmentでリリースされる。
関連論文リスト
- Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention [46.74923772450212]
Vision Transformerは、低解像度のシーケンスで欠落した詳細を復元することに成功した。
VSRの精度が優れているにもかかわらず、計算負荷と大きなメモリフットプリントはトランスフォーマーベースのVSRモデルの展開を妨げる。
マスク内およびフレーム間アテンション(MIA-VSR)を用いた新しい特徴レベルマスキング処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-12T00:49:49Z) - RePAST: Relative Pose Attention Scene Representation Transformer [78.33038881681018]
SRT(Scene Representation Transformer)はインタラクティブなレートで新しいビューを描画する手法である。
本稿では、参照フレームを入力時に固定する代わりに、トランスフォーマーのアテンション機構に直接ペアワイズ対応カメラのポーズ情報を注入する。
論文 参考訳(メタデータ) (2023-04-03T13:13:12Z) - Benchmark Dataset and Effective Inter-Frame Alignment for Real-World
Video Super-Resolution [65.20905703823965]
ビデオ超解像(VSR)は、高解像度(HR)動画を低解像度(LR)ビデオから再構成することを目的としており、近年大きく進歩している。
既存のVSRメソッドを複雑な劣化を伴う実世界のデータにデプロイすることは依然として困難である。
EAVSRは、提案した多層適応空間変換ネットワーク(MultiAdaSTN)を用いて、事前学習した光フロー推定ネットワークが提供するオフセットを洗練する。
論文 参考訳(メタデータ) (2022-12-10T17:41:46Z) - Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T15:26:59Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation
and Alignment [90.81396836308085]
我々は,伝播とアライメントの強化による再生フレームワークの強化により,映像情報をより効果的に活用できることを示す。
我々のモデルである BasicVSR++ は PSNR で BasicVSR を 0.82 dB で上回っている。
BasicVSR++は圧縮ビデオ強化などの他のビデオ復元タスクによく一般化される。
論文 参考訳(メタデータ) (2021-04-27T17:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。