論文の概要: ViStripformer: A Token-Efficient Transformer for Versatile Video
Restoration
- arxiv url: http://arxiv.org/abs/2312.14502v1
- Date: Fri, 22 Dec 2023 08:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:55:26.921382
- Title: ViStripformer: A Token-Efficient Transformer for Versatile Video
Restoration
- Title(参考訳): vistripformer:汎用ビデオ復元のためのトークン効率の高いトランスフォーマー
- Authors: Fu-Jen Tsai, Yan-Tsung Peng, Chen-Yu Chang, Chan-Yu Li, Yen-Yu Lin,
Chung-Chi Tsai, and Chia-Wen Lin
- Abstract要約: ViStripformerは、バニラトランスよりもメモリ使用量がはるかに少ない、効率的かつ効率的なトランスアーキテクチャである。
ビデオフレームを水平方向と垂直方向のストリップ状の特徴に分解し,様々な方向や大きさの劣化パターンに対処する。
- 参考スコア(独自算出の注目度): 42.356013390749204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video restoration is a low-level vision task that seeks to restore clean,
sharp videos from quality-degraded frames. One would use the temporal
information from adjacent frames to make video restoration successful.
Recently, the success of the Transformer has raised awareness in the
computer-vision community. However, its self-attention mechanism requires much
memory, which is unsuitable for high-resolution vision tasks like video
restoration. In this paper, we propose ViStripformer (Video Stripformer), which
utilizes spatio-temporal strip attention to catch long-range data correlations,
consisting of intra-frame strip attention (Intra-SA) and inter-frame strip
attention (Inter-SA) for extracting spatial and temporal information. It
decomposes video frames into strip-shaped features in horizontal and vertical
directions for Intra-SA and Inter-SA to address degradation patterns with
various orientations and magnitudes. Besides, ViStripformer is an effective and
efficient transformer architecture with much lower memory usage than the
vanilla transformer. Extensive experiments show that the proposed model
achieves superior results with fast inference time on video restoration tasks,
including video deblurring, demoireing, and deraining.
- Abstract(参考訳): ビデオ復元は、画質の劣化したフレームからクリーンでシャープなビデオを復元する、低レベルの視覚タスクである。
隣接するフレームからの時間情報を使ってビデオの復元を成功させる。
近年,トランスフォーマーの成功はコンピュータビジョンコミュニティにおいて認知度を高めている。
しかし、その自己保持機構は大量のメモリを必要とするため、ビデオ復元のような高解像度の視覚タスクには適さない。
本稿では,空間的および時間的情報を抽出するために,フレーム内ストリップ注意 (intra-sa) とフレーム間ストリップ注意 (inter-sa) からなる長距離データ相関を捉えるために時空間的ストリップ注意を利用するvistripformer (video stripformer) を提案する。
ビデオフレームを水平方向と垂直方向のストリップ状の特徴に分解し,様々な方向や大きさの劣化パターンに対処する。
さらに、ViStripformerはバニラ変圧器よりもメモリ使用量の少ない効率的かつ効率的なトランスアーキテクチャである。
広範に実験した結果,提案手法は,ビデオデブラリング,デモレーリング,デレイニングなどの映像復元作業において,高速な推定時間で優れた結果が得られることがわかった。
関連論文リスト
- TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Video Event Restoration Based on Keyframes for Video Anomaly Detection [9.18057851239942]
既存のディープニューラルネットワークベースの異常検出(VAD)手法は、主にフレーム再構成やフレーム予測の経路に従う。
これらの制限を突破するために、新しいVADパラダイムを導入します。
本稿では,ビデオイベント復元のためのU字型スイニングトランスフォーマーネットワーク (USTN-DSC) を提案する。
論文 参考訳(メタデータ) (2023-04-11T10:13:19Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。