論文の概要: STanH : Parametric Quantization for Variable Rate Learned Image Compression
- arxiv url: http://arxiv.org/abs/2410.00557v2
- Date: Sat, 12 Oct 2024 10:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 21:41:22.642048
- Title: STanH : Parametric Quantization for Variable Rate Learned Image Compression
- Title(参考訳): STanH : 可変レート学習画像圧縮のためのパラメトリック量子化
- Authors: Alberto Presta, Enzo Tartaglione, Attilio Fiandrotti, Marco Grangetto,
- Abstract要約: エンドツーエンドの学習画像圧縮では、エンコーダとデコーダが共同でトレーニングされ、$R + lambdaD$コスト関数が最小になる。
数百万のパラメータを持つ異なるエンコーダとデコーダのペアは、$lambda$ごとにトレーニングされなければなりません。
本稿では, 双曲的接点のパラメトリック和(STanH)を中心に設計された微分可能な量子化器を提案する。
- 参考スコア(独自算出の注目度): 14.116413194151855
- License:
- Abstract: In end-to-end learned image compression, encoder and decoder are jointly trained to minimize a $R + {\lambda}D$ cost function, where ${\lambda}$ controls the trade-off between rate of the quantized latent representation and image quality. Unfortunately, a distinct encoder-decoder pair with millions of parameters must be trained for each ${\lambda}$, hence the need to switch encoders and to store multiple encoders and decoders on the user device for every target rate. This paper proposes to exploit a differentiable quantizer designed around a parametric sum of hyperbolic tangents, called STanH , that relaxes the step-wise quantization function. STanH is implemented as a differentiable activation layer with learnable quantization parameters that can be plugged into a pre-trained fixed rate model and refined to achieve different target bitrates. Experimental results show that our method enables variable rate coding with comparable efficiency to the state-of-the-art, yet with significant savings in terms of ease of deployment, training time, and storage costs
- Abstract(参考訳): エンドツーエンドの学習画像圧縮では、エンコーダとデコーダは、$R + {\lambda}D$コスト関数を最小化するために共同で訓練される。
残念ながら、数百万のパラメータを持つ異なるエンコーダとデコーダのペアは、${\lambda}$ごとにトレーニングされなければならないため、エンコーダを切り替えたり、ターゲットレート毎に複数のエンコーダとデコーダをユーザデバイスに格納する必要がある。
本稿では, 段階的量子化関数を緩和する, 双曲的接点のパラメトリック和STanHを用いて, 微分可能な量子化器を提案する。
STanHは、学習可能な量子化パラメータを事前訓練された固定レートモデルにプラグインし、異なるターゲットビットレートを達成するための改良が可能な、微分可能なアクティベーション層として実装されている。
実験結果から,本手法は,展開の容易さ,トレーニング時間,ストレージコストといった面で,最先端技術に匹敵する効率で可変レートの符号化が可能でありながら,大幅な節約が可能であることが示唆された。
関連論文リスト
- Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文 参考訳(メタデータ) (2024-07-16T13:17:51Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - A Principled Hierarchical Deep Learning Approach to Joint Image
Compression and Classification [27.934109301041595]
本研究は,エンコーダを誘導し,コンパクトで差別的で,一般的な拡張/変換に適した特徴を抽出する3段階共同学習戦略を提案する。
CIFAR-10では最大1.5%,CIFAR-100では3%,従来のE2Eクロスエントロピートレーニングでは3%の精度向上が得られた。
論文 参考訳(メタデータ) (2023-10-30T15:52:18Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Dynamic Encoder Transducer: A Flexible Solution For Trading Off Accuracy
For Latency [29.565186028860854]
1つのDETモデルは、再トレーニングや微調整なしに、異なる容量の複数のデバイスにスケールします。
協調学習は、1つのモデルで異なる深さを持つ複数のエンコーダを共同で訓練する。
Librispeechの実験結果によると、DETのフルサイズのエンコーダは、同じサイズのベースラインの単語誤り率を比較的8%以上減少させる。
論文 参考訳(メタデータ) (2021-04-05T22:32:20Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。