論文の概要: STanH : Parametric Quantization for Variable Rate Learned Image Compression
- arxiv url: http://arxiv.org/abs/2410.00557v1
- Date: Sat, 12 Oct 2024 10:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:57:03.269900
- Title: STanH : Parametric Quantization for Variable Rate Learned Image Compression
- Title(参考訳): STanH : 可変レート学習画像圧縮のためのパラメトリック量子化
- Authors: Alberto Presta, Enzo Tartaglione, Attilio Fiandrotti, Marco Grangetto,
- Abstract要約: エンドツーエンドの学習画像圧縮では、エンコーダとデコーダが共同でトレーニングされ、$R + lambdaD$コスト関数が最小になる。
数百万のパラメータを持つ異なるエンコーダとデコーダのペアは、$lambda$ごとにトレーニングされなければなりません。
本稿では, 双曲的接点のパラメトリック和(STanH)を中心に設計された微分可能な量子化器を提案する。
- 参考スコア(独自算出の注目度): 14.116413194151855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In end-to-end learned image compression, encoder and decoder are jointly trained to minimize a $R + {\lambda}D$ cost function, where ${\lambda}$ controls the trade-off between rate of the quantized latent representation and image quality. Unfortunately, a distinct encoder-decoder pair with millions of parameters must be trained for each ${\lambda}$, hence the need to switch encoders and to store multiple encoders and decoders on the user device for every target rate. This paper proposes to exploit a differentiable quantizer designed around a parametric sum of hyperbolic tangents, called STanH , that relaxes the step-wise quantization function. STanH is implemented as a differentiable activation layer with learnable quantization parameters that can be plugged into a pre-trained fixed rate model and refined to achieve different target bitrates. Experimental results show that our method enables variable rate coding with comparable efficiency to the state-of-the-art, yet with significant savings in terms of ease of deployment, training time, and storage costs
- Abstract(参考訳): エンドツーエンドの学習画像圧縮では、エンコーダとデコーダは、$R + {\lambda}D$コスト関数を最小化するために共同で訓練される。
残念ながら、数百万のパラメータを持つ異なるエンコーダとデコーダのペアは、${\lambda}$ごとにトレーニングされなければならないため、エンコーダを切り替えたり、ターゲットレート毎に複数のエンコーダとデコーダをユーザデバイスに格納する必要がある。
本稿では, 段階的量子化関数を緩和する, 双曲的接点のパラメトリック和STanHを用いて, 微分可能な量子化器を提案する。
STanHは、学習可能な量子化パラメータを事前訓練された固定レートモデルにプラグインし、異なるターゲットビットレートを達成するための改良が可能な、微分可能なアクティベーション層として実装されている。
実験結果から,本手法は,展開の容易さ,トレーニング時間,ストレージコストといった面で,最先端技術に匹敵する効率で可変レートの符号化が可能でありながら,大幅な節約が可能であることが示唆された。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Implicit Grid Convolution for Multi-Scale Image Super-Resolution [6.8410780175245165]
我々は,Implicit Grid Convolution(IGConv)と連携して,単一エンコーダを用いたマルチスケールフレームワークを提案する。
本フレームワークは,既存の固定スケール手法に匹敵する性能を達成しつつ,トレーニング予算を削減し,パラメータを3倍に抑える。
論文 参考訳(メタデータ) (2024-08-19T03:30:15Z) - Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文 参考訳(メタデータ) (2024-07-16T13:17:51Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Dynamic Encoder Transducer: A Flexible Solution For Trading Off Accuracy
For Latency [29.565186028860854]
1つのDETモデルは、再トレーニングや微調整なしに、異なる容量の複数のデバイスにスケールします。
協調学習は、1つのモデルで異なる深さを持つ複数のエンコーダを共同で訓練する。
Librispeechの実験結果によると、DETのフルサイズのエンコーダは、同じサイズのベースラインの単語誤り率を比較的8%以上減少させる。
論文 参考訳(メタデータ) (2021-04-05T22:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。