Fugu-MT 論文翻訳(概要): Frequency-Aware Transformer for Learned Image Compression

論文の概要: Frequency-Aware Transformer for Learned Image Compression

arxiv url: http://arxiv.org/abs/2310.16387v1
Date: Wed, 25 Oct 2023 05:59:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 16:26:29.342174
Title: Frequency-Aware Transformer for Learned Image Compression
Title（参考訳）: 学習画像圧縮のための周波数認識トランス
Authors: Han Li, Shaohui Li, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong
Abstract要約: 学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。 FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
参考スコア（独自算出の注目度）: 68.11950589091056
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Learned image compression (LIC) has gained traction as an effective solution for image storage and transmission in recent years. However, existing LIC methods are redundant in latent representation due to limitations in capturing anisotropic frequency components and preserving directional details. To overcome these challenges, we propose a novel frequency-aware transformer (FAT) block that for the first time achieves multiscale directional ananlysis for LIC. The FAT block comprises frequency-decomposition window attention (FDWA) modules to capture multiscale and directional frequency components of natural images. Additionally, we introduce frequency-modulation feed-forward network (FMFFN) to adaptively modulate different frequency components, improving rate-distortion performance. Furthermore, we present a transformer-based channel-wise autoregressive (T-CA) model that effectively exploits channel dependencies. Experiments show that our method achieves state-of-the-art rate-distortion performance compared to existing LIC methods, and evidently outperforms latest standardized codec VTM-12.1 by 14.5%, 15.1%, 13.0% in BD-rate on the Kodak, Tecnick, and CLIC datasets.
Abstract（参考訳）: 近年,学習画像圧縮(lic)が画像記憶と伝送に有効なソリューションとして注目されている。しかし、既存のlic法は、異方性周波数成分の捕捉と方向詳細の保存に制限があるため、潜在表現では冗長である。これらの課題を克服するため,我々は,licの多元的方向アナリシスを初めて達成する新しい周波数認識トランスフォーマ(fat)ブロックを提案する。 FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。さらに、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。さらに,チャネル依存を効果的に活用するt-ca(transformer-based channel-wise autoregressive)モデルを提案する。実験により,本手法は既存の標準手法と比較して最先端の速度歪み性能を実現し,コダック,テックニック,CLICデータセット上でのBDレートの14.5%,15.1%,13.0%,最新の標準コーデックVTM-12.1よりも明らかに優れていた。

関連論文リスト

Diffusion Transformer meets Multi-level Wavelet Spectrum for Single Image Super-Resolution [15.056888813012451]
SR(DTWSR)のための画像ウェーブレットスペクトルに基づく拡散変換器モデルを提案する。 DTWSRは拡散モデルと変圧器の優位性を取り入れ、マルチスケール周波数サブバンド間の相互関係を捉える。デュアルデコーダは、画像生成におけるアライメントを省略することなく、低周波サブバンドと高周波サブバンドの異なるばらつきを扱うよう精巧に設計されている。
論文参考訳（メタデータ） (2025-11-03T02:56:58Z)
Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-25T12:23:10Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
FD-LSCIC: Frequency Decomposition-based Learned Screen Content Image Compression [67.34466255300339]
本稿では、SC画像圧縮における3つの重要な課題として、コンパクトな潜時特徴の学習、量子化ステップのサイズの適応、大規模なSCデータセットの欠如について述べる。適応量子化モジュールを導入し、各周波数成分のスケールした均一ノイズを学習し、量子化の粒度を柔軟に制御する。 SDU-SCICD10Kは,基本SC画像,コンピュータレンダリング画像,およびPCおよびモバイルプラットフォームからのNSとSCの混合画像にまたがる1万以上の画像を含む,大規模なSC画像圧縮データセットを構築した。
論文参考訳（メタデータ） (2025-02-21T03:15:16Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
Few-Shot Domain Adaptation for Learned Image Compression [24.37696296367332]
学習された画像圧縮(lic)は、最先端の速度歪み性能を達成した。 licモデルは通常、トレーニング外領域のイメージに適用した場合、大幅なパフォーマンス劣化に悩まされる。プレトレーニングモデルにプラグイン・アンド・プレイアダプタを組み込むことにより, lic の領域適応手法を提案する。
論文参考訳（メタデータ） (2024-09-17T12:05:29Z)
Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文参考訳（メタデータ） (2024-09-16T15:10:07Z)
Bi-Level Spatial and Channel-aware Transformer for Learned Image Compression [0.0]
本稿では,特徴マップ内の周波数成分を考慮したトランスフォーマーに基づく画像圧縮手法を提案する。本手法は,空間ベース分岐が高周波数と低周波数を独立に扱うHSCATB(Hybrid Space-Channel Attention Transformer Block)を統合した。また、トランスフォーマーブロック内にMLGFFN(Mixed Local-Global Feed Forward Network)を導入し、多様な情報とリッチな情報の抽出を強化する。
論文参考訳（メタデータ） (2024-08-07T15:35:25Z)
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation [99.57024606542416]
周波数マイニングと変調に基づく適応的なオールインワン画像復元ネットワークを提案する。我々のアプローチは、異なる周波数サブバンド上の画像内容に異なる劣化タイプが影響を及ぼすという観察によって動機付けられている。提案モデルでは,入力劣化に応じて情報周波数サブバンドをアクセントすることで適応的再構成を実現する。
論文参考訳（メタデータ） (2024-03-21T17:58:14Z)
Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文参考訳（メタデータ） (2024-02-28T09:27:41Z)
End-to-End Optimized Image Compression with the Frequency-Oriented Transform [8.27145506280741]
本稿では,周波数指向変換により最適化された画像圧縮モデルを提案する。このモデルは任意の周波数成分を選択的に伝送することでスケーラブルな符号化を可能にする。次世代標準H.266/VVCを含む従来のコーデックをMS-SSIMで比較した。
論文参考訳（メタデータ） (2024-01-16T08:16:10Z)
Progressive Learning with Visual Prompt Tuning for Variable-Rate Image Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文参考訳（メタデータ） (2023-11-23T08:29:32Z)
LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文参考訳（メタデータ） (2023-04-19T11:19:10Z)
High-Fidelity Variable-Rate Image Compression via Invertible Activation Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。 IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文参考訳（メタデータ） (2022-09-12T07:14:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。