Fugu-MT 論文翻訳(概要): End-to-end Transformer for Compressed Video Quality Enhancement

論文の概要: End-to-end Transformer for Compressed Video Quality Enhancement

arxiv url: http://arxiv.org/abs/2210.13827v1
Date: Tue, 25 Oct 2022 08:12:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-26 15:42:47.276757
Title: End-to-end Transformer for Compressed Video Quality Enhancement
Title（参考訳）: 圧縮映像品質向上のためのエンドツーエンド変換器
Authors: Li Yu, Wenshuai Chang, Shiyu Wu and Moncef Gabbouj
Abstract要約: 本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
参考スコア（独自算出の注目度）: 21.967066471073462
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Convolutional neural networks have achieved excellent results in compressed video quality enhancement task in recent years. State-of-the-art methods explore the spatiotemporal information of adjacent frames mainly by deformable convolution. However, offset fields in deformable convolution are difficult to train, and its instability in training often leads to offset overflow, which reduce the efficiency of correlation modeling. In this work, we propose a transformer-based compressed video quality enhancement (TVQE) method, consisting of Swin-AutoEncoder based Spatio-Temporal feature Fusion (SSTF) module and Channel-wise Attention based Quality Enhancement (CAQE) module. The proposed SSTF module learns both local and global features with the help of Swin-AutoEncoder, which improves the ability of correlation modeling. Meanwhile, the window mechanism-based Swin Transformer and the encoderdecoder structure greatly improve the execution efficiency. On the other hand, the proposed CAQE module calculates the channel attention, which aggregates the temporal information between channels in the feature map, and finally achieves the efficient fusion of inter-frame information. Extensive experimental results on the JCT-VT test sequences show that the proposed method achieves better performance in average for both subjective and objective quality. Meanwhile, our proposed method outperforms existing ones in terms of both inference speed and GPU consumption.
Abstract（参考訳）: 近年,畳み込みニューラルネットワークは圧縮映像品質向上タスクにおいて優れた成果を上げている。最新の手法は、主に変形可能な畳み込みによって隣接するフレームの時空間情報を探索する。しかし、変形可能な畳み込みにおけるオフセットフィールドの訓練は困難であり、そのトレーニングにおける不安定さはオフセットオーバーフローを引き起こし、相関モデリングの効率を低下させる。本研究では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。提案するSSTFモジュールは,Swin-AutoEncoderの助けを借りて,ローカル機能とグローバル機能の両方を学習し,相関モデリングの能力を向上させる。一方、ウィンドウ機構に基づくスウィントランスとエンコーダデコーダ構造は、実行効率を大幅に向上させる。一方,提案するcaqeモジュールは,機能マップ内のチャネル間の時間情報を集約するチャネルアテンションを算出し,最終的にフレーム間情報の効率的な融合を実現する。 JCT-VTテストシーケンスの大規模な実験結果から,提案手法は主観的,客観的両品質の両面において,平均性能が向上することが示された。一方,提案手法は推論速度とGPU消費の両方の観点から既存手法よりも優れている。

関連論文リスト

FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文参考訳（メタデータ） (2025-06-13T07:59:52Z)
CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Low Quality Medical Images [29.68616115427831]
CNN-Transformerモデルは、ローカル情報と長距離依存の両方を効率的にモデル化するCNNとTransformerの利点を組み合わせるように設計されている。本稿では,Cross Feature Channel Attention (CFCA)モジュールとX-Spatial Feature Fusion (XFF)モジュールを紹介する。 CFCAモジュールは2つのエンコーダからチャネル特徴間の相互作用をフィルタリングし、促進する一方、XFFモジュールは空間的特徴の有意な意味情報の違いを効果的に軽減する。
論文参考訳（メタデータ） (2025-01-07T08:59:20Z)
PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-10T10:16:03Z)
LADDER: An Efficient Framework for Video Frame Interpolation [12.039193291203492]
ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-17T06:47:17Z)
AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文参考訳（メタデータ） (2023-07-12T11:32:02Z)
Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。 ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文参考訳（メタデータ） (2023-07-05T13:17:14Z)
An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention [0.2538209532048866]
本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。実験結果から,本モデルでは性能と計算効率のバランスが良好であることが示唆された。
論文参考訳（メタデータ） (2023-06-09T13:30:27Z)
Joint Channel Estimation and Feedback with Masked Token Transformers in Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文参考訳（メタデータ） (2023-06-08T06:15:17Z)
Learned Video Compression via Heterogeneous Deformable Compensation Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2022-07-11T02:31:31Z)
DisCoVQA: Temporal Distortion-Content Transformers for Video Quality Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文参考訳（メタデータ） (2022-06-20T15:31:27Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)
Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文参考訳（メタデータ） (2021-11-27T05:35:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。