Fugu-MT 論文翻訳(概要): STanH : Parametric Quantization for Variable Rate Learned Image Compression

論文の概要: STanH : Parametric Quantization for Variable Rate Learned Image Compression

arxiv url: http://arxiv.org/abs/2410.00557v2
Date: Sat, 12 Oct 2024 10:40:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 04:57:03.266999
Title: STanH : Parametric Quantization for Variable Rate Learned Image Compression
Title（参考訳）: STanH : 可変レート学習画像圧縮のためのパラメトリック量子化
Authors: Alberto Presta, Enzo Tartaglione, Attilio Fiandrotti, Marco Grangetto,
Abstract要約: エンドツーエンドの学習画像圧縮では、エンコーダとデコーダが共同でトレーニングされ、$R + lambdaD$コスト関数が最小になる。数百万のパラメータを持つ異なるエンコーダとデコーダのペアは、$lambda$ごとにトレーニングされなければなりません。本稿では, 双曲的接点のパラメトリック和(STanH)を中心に設計された微分可能な量子化器を提案する。
参考スコア（独自算出の注目度）: 14.116413194151855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In end-to-end learned image compression, encoder and decoder are jointly trained to minimize a $R + {\lambda}D$ cost function, where ${\lambda}$ controls the trade-off between rate of the quantized latent representation and image quality. Unfortunately, a distinct encoder-decoder pair with millions of parameters must be trained for each ${\lambda}$, hence the need to switch encoders and to store multiple encoders and decoders on the user device for every target rate. This paper proposes to exploit a differentiable quantizer designed around a parametric sum of hyperbolic tangents, called STanH , that relaxes the step-wise quantization function. STanH is implemented as a differentiable activation layer with learnable quantization parameters that can be plugged into a pre-trained fixed rate model and refined to achieve different target bitrates. Experimental results show that our method enables variable rate coding with comparable efficiency to the state-of-the-art, yet with significant savings in terms of ease of deployment, training time, and storage costs
Abstract（参考訳）: エンドツーエンドの学習画像圧縮では、エンコーダとデコーダは、$R + {\lambda}D$コスト関数を最小化するために共同で訓練される。残念ながら、数百万のパラメータを持つ異なるエンコーダとデコーダのペアは、${\lambda}$ごとにトレーニングされなければならないため、エンコーダを切り替えたり、ターゲットレート毎に複数のエンコーダとデコーダをユーザデバイスに格納する必要がある。本稿では, 段階的量子化関数を緩和する, 双曲的接点のパラメトリック和STanHを用いて, 微分可能な量子化器を提案する。 STanHは、学習可能な量子化パラメータを事前訓練された固定レートモデルにプラグインし、異なるターゲットビットレートを達成するための改良が可能な、微分可能なアクティベーション層として実装されている。実験結果から,本手法は,展開の容易さ,トレーニング時間,ストレージコストといった面で,最先端技術に匹敵する効率で可変レートの符号化が可能でありながら,大幅な節約が可能であることが示唆された。

関連論文リスト

CoDeQ: End-to-End Joint Model Compression with Dead-Zone Quantizer for High-Sparsity and Low-Precision Networks [9.784730417146335]
CoDeQは、単純で完全に微分可能なジョイントプルーニング-量子化法である。デッドゾーン幅をパラメータ化し、量子化パラメータとともにバックプロパゲーションにより学習する。 ResNet-18のImageNetでは、CoDeQはビット演算を5%まで削減し、完全な精度を維持している。
論文参考訳（メタデータ） (2025-12-15T04:53:32Z)
SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization [56.12853087022071]
スケーリングとトレーニングの安定性を向上させるために,新しい画素拡散デコーダアーキテクチャを導入する。蒸留を用いて, 拡散復号器の性能を効率よく再現する。これによりSSDDは、敵の損失なしに訓練された単一ステップ再構成に最適化された最初の拡散デコーダとなる。
論文参考訳（メタデータ） (2025-10-06T15:57:31Z)
Discrete Variational Autoencoding via Policy Search [16.257957838291563]
変分オートエンコーダ(VAE)の離散遅延ボトルネックは高いビット効率を提供する。離散確率変数は、正確に微分可能なパラメータ化を許さない。非パラメトリックエンコーダの自然な勾配を利用する離散型VAEのためのトレーニングフレームワークを提案する。自動ステップサイズ適応とトランスフォーマーベースのエンコーダを組み合わせることで、ImageNetのような挑戦的なデータセットにスケールする。
論文参考訳（メタデータ） (2025-09-29T12:44:05Z)
METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文参考訳（メタデータ） (2025-07-28T13:50:53Z)
Optimizing Learned Image Compression on Scalar and Entropy-Constraint Quantization [8.95146413290727]
正しい量子化データに対する再トレーニングは、一様スカラーおよび特にエントロピー制約量子化に対して、一貫した符号化ゲインをもたらすことを示す。 Kodakテストセットでは、平均貯蓄率1%から2%、TecNickテストではBjontegaard-Deltaの2.2%に設定されている。
論文参考訳（メタデータ） (2025-06-10T10:22:22Z)
Adaptive Rate Control for Deep Video Compression with Rate-Distortion Prediction [28.99369130279806]
本稿では,ディープビデオ圧縮のためのニューラルネットワークによる$lambda$ドメインレート制御手法を提案する。コンテンツ認識方式は、フレーム間の品質変動を緩和し、ビデオコンテンツの急激な変化に適応することができる。
論文参考訳（メタデータ） (2024-12-25T08:42:23Z)
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文参考訳（メタデータ） (2024-11-26T04:49:42Z)
QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。 QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文参考訳（メタデータ） (2024-10-15T05:57:51Z)
Implicit Grid Convolution for Multi-Scale Image Super-Resolution [6.8410780175245165]
我々は,Implicit Grid Convolution(IGConv)と連携して,単一エンコーダを用いたマルチスケールフレームワークを提案する。本フレームワークは,既存の固定スケール手法に匹敵する性能を達成しつつ,トレーニング予算を削減し,パラメータを3倍に抑える。
論文参考訳（メタデータ） (2024-08-19T03:30:15Z)
Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文参考訳（メタデータ） (2024-07-16T13:17:51Z)
Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-12-15T08:46:43Z)
Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文参考訳（メタデータ） (2023-08-22T19:09:56Z)
Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文参考訳（メタデータ） (2022-10-23T00:32:04Z)
AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。 GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文参考訳（メタデータ） (2022-10-08T00:36:00Z)
String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文参考訳（メタデータ） (2022-08-23T03:56:30Z)
Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文参考訳（メタデータ） (2021-04-20T14:14:03Z)
Dynamic Encoder Transducer: A Flexible Solution For Trading Off Accuracy For Latency [29.565186028860854]
1つのDETモデルは、再トレーニングや微調整なしに、異なる容量の複数のデバイスにスケールします。協調学習は、1つのモデルで異なる深さを持つ複数のエンコーダを共同で訓練する。 Librispeechの実験結果によると、DETのフルサイズのエンコーダは、同じサイズのベースラインの単語誤り率を比較的8%以上減少させる。
論文参考訳（メタデータ） (2021-04-05T22:32:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。