論文の概要: Recursive Fusion and Deformable Spatiotemporal Attention for Video
Compression Artifact Reduction
- arxiv url: http://arxiv.org/abs/2108.02110v1
- Date: Wed, 4 Aug 2021 15:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:11:49.145236
- Title: Recursive Fusion and Deformable Spatiotemporal Attention for Video
Compression Artifact Reduction
- Title(参考訳): ビデオ圧縮アーチファクト低減のための再帰融合と変形可能な時空間アテンション
- Authors: Minyi Zhao, Yi Xu, Shuigeng Zhou
- Abstract要約: 低品質圧縮ビデオから高品質な映像を復元するためのディープラーニングアルゴリズムが提案されている。
本稿では,長い時間範囲内での時間依存性をモデル化するための再帰核融合(RF)モジュールを提案する。
また,効率的な変形可能な時間的時間的注意(DSTA)モジュールを設計し,人工物に富む領域の復元により多くの労力を費やす。
- 参考スコア(独自算出の注目度): 36.255863808004065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A number of deep learning based algorithms have been proposed to recover
high-quality videos from low-quality compressed ones. Among them, some restore
the missing details of each frame via exploring the spatiotemporal information
of neighboring frames. However, these methods usually suffer from a narrow
temporal scope, thus may miss some useful details from some frames outside the
neighboring ones. In this paper, to boost artifact removal, on the one hand, we
propose a Recursive Fusion (RF) module to model the temporal dependency within
a long temporal range. Specifically, RF utilizes both the current reference
frames and the preceding hidden state to conduct better spatiotemporal
compensation. On the other hand, we design an efficient and effective
Deformable Spatiotemporal Attention (DSTA) module such that the model can pay
more effort on restoring the artifact-rich areas like the boundary area of a
moving object. Extensive experiments show that our method outperforms the
existing ones on the MFQE 2.0 dataset in terms of both fidelity and perceptual
effect. Code is available at https://github.com/zhaominyiz/RFDA-PyTorch.
- Abstract(参考訳): 低品質の圧縮ビデオから高品質な映像を復元するために、多くのディープラーニングベースのアルゴリズムが提案されている。
そのうちのいくつかは、隣接するフレームの時空間情報を探索することで、各フレームの欠落の詳細を復元する。
しかし、これらの手法は通常、狭い時間範囲に悩まされるため、隣接するフレームの外のいくつかの有用な詳細を見逃してしまうことがある。
本稿では, アーティファクトの除去を促進するために, 長期間の時間的依存性をモデル化するための再帰核融合 (RF) モジュールを提案する。
具体的には、RFは現在の基準フレームとそれ以前の隠れ状態の両方を利用し、時空間補正をより良く行う。
一方, 移動物体の境界領域のような人工物に富む領域の復元に, モデルがより多くの労力を費やすように, 効率的かつ効果的な変形可能な時空間注意モジュールを設計する。
本手法は,MFQE 2.0データセットの忠実度と知覚的効果の両面で,既存の手法よりも優れていることを示す。
コードはhttps://github.com/zhaominyiz/RFDA-PyTorchで入手できる。
関連論文リスト
- SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition [18.542942459854867]
従来のデータ駆動研究には大量のビデオサンプルが継続的に必要である。
本稿では,Stemp-Oral frAme tuwenle (SOAP) と呼ばれるアクション認識のための新しいプラグイン・アンド・プレイアーキテクチャを提案する。
SOAP-Netは、SthSthV2、Kineetics、UCF101、SOAP51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成します。
論文 参考訳(メタデータ) (2024-07-23T09:45:25Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - STAF: 3D Human Mesh Recovery from Video with Spatio-Temporal Alignment
Fusion [35.42718669331158]
既存のモデルは、通常、空間的・時間的情報を無視し、メッシュや画像の不一致や時間的不連続につながる可能性がある。
ビデオベースのモデルとして、注意に基づくテンポラルコヒーレンス融合モジュールによる人間の動きからのコヒーレンスヒントを利用する。
さらに,モデルが対象のフレームだけでなく,入力シーケンス全体に集中できるように,平均プールモジュール(APM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:07:14Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。