論文の概要: End-to-end Transformer for Compressed Video Quality Enhancement
- arxiv url: http://arxiv.org/abs/2210.13827v1
- Date: Tue, 25 Oct 2022 08:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:42:47.276757
- Title: End-to-end Transformer for Compressed Video Quality Enhancement
- Title(参考訳): 圧縮映像品質向上のためのエンドツーエンド変換器
- Authors: Li Yu, Wenshuai Chang, Shiyu Wu and Moncef Gabbouj
- Abstract要約: 本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
- 参考スコア(独自算出の注目度): 21.967066471073462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks have achieved excellent results in compressed
video quality enhancement task in recent years. State-of-the-art methods
explore the spatiotemporal information of adjacent frames mainly by deformable
convolution. However, offset fields in deformable convolution are difficult to
train, and its instability in training often leads to offset overflow, which
reduce the efficiency of correlation modeling. In this work, we propose a
transformer-based compressed video quality enhancement (TVQE) method,
consisting of Swin-AutoEncoder based Spatio-Temporal feature Fusion (SSTF)
module and Channel-wise Attention based Quality Enhancement (CAQE) module. The
proposed SSTF module learns both local and global features with the help of
Swin-AutoEncoder, which improves the ability of correlation modeling.
Meanwhile, the window mechanism-based Swin Transformer and the encoderdecoder
structure greatly improve the execution efficiency. On the other hand, the
proposed CAQE module calculates the channel attention, which aggregates the
temporal information between channels in the feature map, and finally achieves
the efficient fusion of inter-frame information. Extensive experimental results
on the JCT-VT test sequences show that the proposed method achieves better
performance in average for both subjective and objective quality. Meanwhile,
our proposed method outperforms existing ones in terms of both inference speed
and GPU consumption.
- Abstract(参考訳): 近年,畳み込みニューラルネットワークは圧縮映像品質向上タスクにおいて優れた成果を上げている。
最新の手法は、主に変形可能な畳み込みによって隣接するフレームの時空間情報を探索する。
しかし、変形可能な畳み込みにおけるオフセットフィールドの訓練は困難であり、そのトレーニングにおける不安定さはオフセットオーバーフローを引き起こし、相関モデリングの効率を低下させる。
本研究では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案するSSTFモジュールは,Swin-AutoEncoderの助けを借りて,ローカル機能とグローバル機能の両方を学習し,相関モデリングの能力を向上させる。
一方、ウィンドウ機構に基づくスウィントランスとエンコーダデコーダ構造は、実行効率を大幅に向上させる。
一方,提案するcaqeモジュールは,機能マップ内のチャネル間の時間情報を集約するチャネルアテンションを算出し,最終的にフレーム間情報の効率的な融合を実現する。
JCT-VTテストシーケンスの大規模な実験結果から,提案手法は主観的,客観的両品質の両面において,平均性能が向上することが示された。
一方,提案手法は推論速度とGPU消費の両方の観点から既存手法よりも優れている。
関連論文リスト
- Boosting Neural Representations for Videos with a Conditional Decoder [29.282744018755558]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Efficient Convolution and Transformer-Based Network for Video Frame
Interpolation [11.036815066639473]
トランスエンコーダと畳み込み機能を組み合わせた新しい手法を提案する。
このネットワークは、メモリ負荷を50%近く削減し、推論時間中に最大4倍高速に動作させる。
局所相関のモデル化における畳み込みの強さと長距離依存のための変換器の強度を結合したデュアルエンコーダアーキテクチャが導入された。
論文 参考訳(メタデータ) (2023-07-12T20:14:06Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - An Efficient Speech Separation Network Based on Recurrent Fusion Dilated
Convolution and Channel Attention [0.2538209532048866]
本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。
実験結果から,本モデルでは性能と計算効率のバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T13:30:27Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。