論文の概要: On Disentangled Training for Nonlinear Transform in Learned Image Compression
- arxiv url: http://arxiv.org/abs/2501.13751v1
- Date: Thu, 23 Jan 2025 15:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:55:58.215312
- Title: On Disentangled Training for Nonlinear Transform in Learned Image Compression
- Title(参考訳): 学習画像圧縮における非線形変換の遠絡学習について
- Authors: Han Li, Shaohui Li, Wenrui Dai, Maida Cao, Nuowen Kan, Chenglin Li, Junni Zou, Hongkai Xiong,
- Abstract要約: 学習画像圧縮(lic)は,従来のコーデックに比べて高いレート歪み(R-D)性能を示した。
既存のlic法は、非線形変換の学習において、エネルギーのコンパクト化によって生じる緩やかな収束を見落としている。
非線形変換の訓練において, エネルギーの縮退を両立させる線形補助変換(AuxT)を提案する。
- 参考スコア(独自算出の注目度): 59.66885464492666
- License:
- Abstract: Learned image compression (LIC) has demonstrated superior rate-distortion (R-D) performance compared to traditional codecs, but is challenged by training inefficiency that could incur more than two weeks to train a state-of-the-art model from scratch. Existing LIC methods overlook the slow convergence caused by compacting energy in learning nonlinear transforms. In this paper, we first reveal that such energy compaction consists of two components, i.e., feature decorrelation and uneven energy modulation. On such basis, we propose a linear auxiliary transform (AuxT) to disentangle energy compaction in training nonlinear transforms. The proposed AuxT obtains coarse approximation to achieve efficient energy compaction such that distribution fitting with the nonlinear transforms can be simplified to fine details. We then develop wavelet-based linear shortcuts (WLSs) for AuxT that leverages wavelet-based downsampling and orthogonal linear projection for feature decorrelation and subband-aware scaling for uneven energy modulation. AuxT is lightweight and plug-and-play to be integrated into diverse LIC models to address the slow convergence issue. Experimental results demonstrate that the proposed approach can accelerate training of LIC models by 2 times and simultaneously achieves an average 1\% BD-rate reduction. To our best knowledge, this is one of the first successful attempt that can significantly improve the convergence of LIC with comparable or superior rate-distortion performance. Code will be released at \url{https://github.com/qingshi9974/AuxT}
- Abstract(参考訳): 学習画像圧縮(lic)は、従来のコーデックよりも高いレート歪み(R-D)性能を示してきたが、最先端のモデルをスクラッチからトレーニングするのに2週間以上かかる訓練の非効率さに悩まされている。
既存のlic法は、非線形変換の学習において、エネルギーのコンパクト化によって生じる緩やかな収束を見落としている。
本稿では,このようなエネルギーのコンパクト化が,特徴デコリレーションと不均一エネルギー変調という2つの成分から成り立っていることを最初に明らかにする。
そこで本研究では, 非線形変換のトレーニングにおいて, エネルギー圧縮を両立させる線形補助変換(AuxT)を提案する。
提案したAuxTは、非線形変換に適合する分布を単純化して詳細化できるように、効率的なエネルギー圧縮を実現するために粗い近似を求める。
次に、ウェーブレットに基づく線形ショートカット(WLS)を開発し、ウェーブレットに基づくダウンサンプリングと直交線形プロジェクションを利用して特徴デコリレーションと不均一エネルギー変調のためのサブバンドアウェアスケーリングを行う。
AuxTは軽量でプラグイン・アンド・プレイで、緩やかな収束問題に対処するために様々なlicモデルに統合される。
実験結果から,提案手法は平均BDレートを2倍に向上させるとともに,平均BDレートを1倍減らすことができることがわかった。
われわれの知る限りでは、この試みはコンバージェンスを同等または優れたレート歪み性能で大幅に改善する最初の試みの1つである。
コードは \url{https://github.com/qingshi9974/AuxT} でリリースされる。
関連論文リスト
- LiT: Delving into a Simplified Linear Diffusion Transformer for Image Generation [96.54620463472526]
線形拡散変換器(Linear Diffusion Transformer、LiT)は、ラップトップ上でオフラインでデプロイできる効率的なテキスト・画像変換器である。
LiTは、DiTと比較して、トレーニングステップを80%と77%削減しながら、非常に競争力のあるFIDを実現している。
テキストから画像を生成するために、LiTは最大1K解像度のフォトリアリスティック画像の迅速な合成を可能にする。
論文 参考訳(メタデータ) (2025-01-22T16:02:06Z) - Unconventional Computing based on Four Wave Mixing in Highly Nonlinear
Waveguides [0.0]
高非線形導波路の4波混合効果に基づくフォトニック非従来型加速器の数値解析を行った。
豊かなKerr誘起非線形性を利用することで、入力信号の複数の非線形変換を生成し、複雑な非線形タスクを解くのに使うことができる。
論文 参考訳(メタデータ) (2024-02-14T12:34:38Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Gradient Descent Provably Solves Nonlinear Tomographic Reconstruction [60.95625458395291]
計算トモグラフィー(CT)では、フォワードモデルは線形変換と、ベル=ランベルト法則に従って光の減衰に基づく指数非線形性によって構成される。
金属クラウンを用いた人間の頭蓋骨の商業的再構築と比較すると,このアプローチは金属人工物を減らすことが示されている。
論文 参考訳(メタデータ) (2023-10-06T00:47:57Z) - Tangent Transformers for Composition, Privacy and Removal [58.280295030852194]
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
論文 参考訳(メタデータ) (2023-07-16T18:31:25Z) - Application of Transformers for Nonlinear Channel Compensation in Optical Systems [0.23499129784547654]
変換器をベースとした非線形光チャネル等化器を提案する。
並列計算の活用とシンボル列間の直接メモリへの接続により,変換器を非線形補償に有効に利用できることを示す。
論文 参考訳(メタデータ) (2023-04-25T19:48:54Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - Accelerated MRI With Deep Linear Convolutional Transform Learning [7.927206441149002]
近年の研究では、深層学習に基づくMRI再構成は、従来の手法よりも複数の応用において優れていることが示されている。
本研究では, CS, TL, DL再構成のアイデアを組み合わせて, 深い線形畳み込み変換を学習する。
提案手法は,均一なアンダーサンプリングパターンをサポートしながら,DL法に匹敵するレベルのMR画像を再構成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-17T04:47:32Z) - Nonlinear Transform Induced Tensor Nuclear Norm for Tensor Completion [12.788874164701785]
我々はNTTNNとPAMアルゴリズムの理論的収束性に沿って低ランクテンソル完備化(LRTC)モデルを提案する。
本手法は,線形変換に基づく最先端核標準(TNN)法よりも質的に,定量的に優れている。
論文 参考訳(メタデータ) (2021-10-17T09:25:37Z) - Hot-spots and gain enhancement in a doubly pumped parametric
down-conversion process [62.997667081978825]
非線形バルク結晶のパラメトリックダウンコンバージョン過程を2つの非線形ポンプモードで実験的に検討した。
この実験は、2つのポンプが共有するモードにおける明るいホットスポットの出現を示し、最近2次元非線形フォトニック結晶で観測された現象学と類似している。
論文 参考訳(メタデータ) (2020-07-24T09:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。