論文の概要: On Disentangled Training for Nonlinear Transform in Learned Image Compression
- arxiv url: http://arxiv.org/abs/2501.13751v1
- Date: Thu, 23 Jan 2025 15:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:55:58.215312
- Title: On Disentangled Training for Nonlinear Transform in Learned Image Compression
- Title(参考訳): 学習画像圧縮における非線形変換の遠絡学習について
- Authors: Han Li, Shaohui Li, Wenrui Dai, Maida Cao, Nuowen Kan, Chenglin Li, Junni Zou, Hongkai Xiong,
- Abstract要約: 学習画像圧縮(lic)は,従来のコーデックに比べて高いレート歪み(R-D)性能を示した。
既存のlic法は、非線形変換の学習において、エネルギーのコンパクト化によって生じる緩やかな収束を見落としている。
非線形変換の訓練において, エネルギーの縮退を両立させる線形補助変換(AuxT)を提案する。
- 参考スコア(独自算出の注目度): 59.66885464492666
- License:
- Abstract: Learned image compression (LIC) has demonstrated superior rate-distortion (R-D) performance compared to traditional codecs, but is challenged by training inefficiency that could incur more than two weeks to train a state-of-the-art model from scratch. Existing LIC methods overlook the slow convergence caused by compacting energy in learning nonlinear transforms. In this paper, we first reveal that such energy compaction consists of two components, i.e., feature decorrelation and uneven energy modulation. On such basis, we propose a linear auxiliary transform (AuxT) to disentangle energy compaction in training nonlinear transforms. The proposed AuxT obtains coarse approximation to achieve efficient energy compaction such that distribution fitting with the nonlinear transforms can be simplified to fine details. We then develop wavelet-based linear shortcuts (WLSs) for AuxT that leverages wavelet-based downsampling and orthogonal linear projection for feature decorrelation and subband-aware scaling for uneven energy modulation. AuxT is lightweight and plug-and-play to be integrated into diverse LIC models to address the slow convergence issue. Experimental results demonstrate that the proposed approach can accelerate training of LIC models by 2 times and simultaneously achieves an average 1\% BD-rate reduction. To our best knowledge, this is one of the first successful attempt that can significantly improve the convergence of LIC with comparable or superior rate-distortion performance. Code will be released at \url{https://github.com/qingshi9974/AuxT}
- Abstract(参考訳): 学習画像圧縮(lic)は、従来のコーデックよりも高いレート歪み(R-D)性能を示してきたが、最先端のモデルをスクラッチからトレーニングするのに2週間以上かかる訓練の非効率さに悩まされている。
既存のlic法は、非線形変換の学習において、エネルギーのコンパクト化によって生じる緩やかな収束を見落としている。
本稿では,このようなエネルギーのコンパクト化が,特徴デコリレーションと不均一エネルギー変調という2つの成分から成り立っていることを最初に明らかにする。
そこで本研究では, 非線形変換のトレーニングにおいて, エネルギー圧縮を両立させる線形補助変換(AuxT)を提案する。
提案したAuxTは、非線形変換に適合する分布を単純化して詳細化できるように、効率的なエネルギー圧縮を実現するために粗い近似を求める。
次に、ウェーブレットに基づく線形ショートカット(WLS)を開発し、ウェーブレットに基づくダウンサンプリングと直交線形プロジェクションを利用して特徴デコリレーションと不均一エネルギー変調のためのサブバンドアウェアスケーリングを行う。
AuxTは軽量でプラグイン・アンド・プレイで、緩やかな収束問題に対処するために様々なlicモデルに統合される。
実験結果から,提案手法は平均BDレートを2倍に向上させるとともに,平均BDレートを1倍減らすことができることがわかった。
われわれの知る限りでは、この試みはコンバージェンスを同等または優れたレート歪み性能で大幅に改善する最初の試みの1つである。
コードは \url{https://github.com/qingshi9974/AuxT} でリリースされる。
関連論文リスト
- Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。
現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。
本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文 参考訳(メタデータ) (2024-10-07T09:08:32Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Few-Shot Domain Adaptation for Learned Image Compression [24.37696296367332]
学習された画像圧縮(lic)は、最先端の速度歪み性能を達成した。
licモデルは通常、トレーニング外領域のイメージに適用した場合、大幅なパフォーマンス劣化に悩まされる。
プレトレーニングモデルにプラグイン・アンド・プレイアダプタを組み込むことにより, lic の領域適応手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T12:05:29Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Frequency-Aware Re-Parameterization for Over-Fitting Based Image
Compression [12.725194101094711]
オーバーフィットベースの画像圧縮は、圧縮のための重み付け圧縮と実用のための高速収束を必要とする。
本稿では、重みを減らし収束を加速したCNNを訓練するための簡易な再パラメータ化法を提案する。
提案手法は, HEIF上に最大-46.12%のBDレートを達成し, 200回しか繰り返しない画像復元実験により検証した。
論文 参考訳(メタデータ) (2023-10-12T06:32:12Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - M22: A Communication-Efficient Algorithm for Federated Learning Inspired
by Rate-Distortion [19.862336286338564]
連合学習では、通信制約による精度の損失を最小限に抑えるために、モデル更新を圧縮する必要がある。
本稿では、勾配圧縮に対する速度歪みに着想を得たEmph$bf M$-magnitudeed $L_bf 2$ distortion + $bf 2$ degrees of freedom' (M22)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-23T04:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。