論文の概要: Learned Compression for Compressed Learning
- arxiv url: http://arxiv.org/abs/2412.09405v1
- Date: Thu, 12 Dec 2024 16:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 17:01:57.053639
- Title: Learned Compression for Compressed Learning
- Title(参考訳): 圧縮学習のための学習圧縮
- Authors: Dan Jacobellis, Neeraja J. Yadwadkar,
- Abstract要約: WaLLoCは、線形変換符号化と次元減少型オートエンコーダを組み合わせたニューラルネットワークである。
WaLLoCは非常に効率的で、モバイルコンピューティング、リモートセンシング、および圧縮データから直接学習するのに適している。
- 参考スコア(独自算出の注目度): 0.1534667887016089
- License:
- Abstract: Modern sensors produce increasingly rich streams of high-resolution data. Due to resource constraints, machine learning systems discard the vast majority of this information via resolution reduction. Compressed-domain learning allows models to operate on compact latent representations, allowing higher effective resolution for the same budget. However, existing compression systems are not ideal for compressed learning. Linear transform coding and end-to-end learned compression systems reduce bitrate, but do not uniformly reduce dimensionality; thus, they do not meaningfully increase efficiency. Generative autoencoders reduce dimensionality, but their adversarial or perceptual objectives lead to significant information loss. To address these limitations, we introduce WaLLoC (Wavelet Learned Lossy Compression), a neural codec architecture that combines linear transform coding with nonlinear dimensionality-reducing autoencoders. WaLLoC sandwiches a shallow, asymmetric autoencoder and entropy bottleneck between an invertible wavelet packet transform. Across several key metrics, WaLLoC outperforms the autoencoders used in state-of-the-art latent diffusion models. WaLLoC does not require perceptual or adversarial losses to represent high-frequency detail, providing compatibility with modalities beyond RGB images and stereo audio. WaLLoC's encoder consists almost entirely of linear operations, making it exceptionally efficient and suitable for mobile computing, remote sensing, and learning directly from compressed data. We demonstrate WaLLoC's capability for compressed-domain learning across several tasks, including image classification, colorization, document understanding, and music source separation. Our code, experiments, and pre-trained audio and image codecs are available at https://ut-sysml.org/walloc
- Abstract(参考訳): 現代のセンサーは、高解像度データのリッチストリームをますます生成します。
リソースの制約のため、機械学習システムは、分解能の低下によって、これらの情報の大部分を破棄する。
圧縮ドメイン学習は、モデルをコンパクトな潜在表現で操作することができ、同じ予算に対してより効果的な解決を可能にする。
しかし,既存の圧縮システムは圧縮学習には適していない。
線形変換符号とエンド・ツー・エンドの学習圧縮システムはビットレートを減少させるが、次元性を均一に減少させるわけではない。
生成的オートエンコーダは次元性を低下させるが、その対角的あるいは知覚的目的は大きな情報損失をもたらす。
これらの制約に対処するために、線形変換符号化と非線形次元減少型オートエンコーダを組み合わせたニューラルネットワークアーキテクチャ、WaLLoC(Wavelet Learned Lossy Compression)を導入する。
WaLLoCは、浅い非対称オートエンコーダと、可逆ウェーブレットパケット変換の間のエントロピーボトルネックをサンドイッチする。
いくつかの重要な指標の中で、WaLLoCは最先端の潜伏拡散モデルで使用されるオートエンコーダよりも優れている。
WaLLoCは、高頻度の詳細を表すために知覚的または敵対的な損失を必要としないため、RGB画像やステレオオーディオ以外のモダリティとの互換性を提供する。
WaLLoCのエンコーダはほとんどが線形演算で構成されており、モバイルコンピューティング、リモートセンシング、圧縮データから直接学習するのに非常に効率的で適している。
本稿では、画像分類、色分け、文書理解、音源分離など、複数のタスクにわたって、WaLLoCの圧縮ドメイン学習能力を示す。
私たちのコード、実験、および事前訓練されたオーディオおよび画像コーデックはhttps://ut-sysml.org/wallocで入手できる。
関連論文リスト
- Accelerating Learned Video Compression via Low-Resolution Representation Learning [18.399027308582596]
低解像度表現学習に焦点を当てた学習ビデオ圧縮のための効率最適化フレームワークを提案する。
提案手法は,H.266参照ソフトウェアVTMの低遅延P構成と同等の性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T12:02:57Z) - Computationally-Efficient Neural Image Compression with Shallow Decoders [43.115831685920114]
本稿では,JPEGに類似した浅い,あるいは線形な復号変換を用いることで,復号化複雑性のギャップを解消する。
我々は、より強力なエンコーダネットワークと反復符号化を採用することにより、符号化と復号の間のしばしば非対称な予算を利用する。
論文 参考訳(メタデータ) (2023-04-13T03:38:56Z) - Deep Lossy Plus Residual Coding for Lossless and Near-lossless Image
Compression [85.93207826513192]
本稿では、損失のない画像圧縮とほぼロスレス画像圧縮の両面において、統合された強力な深い損失+残差(DLPR)符号化フレームワークを提案する。
VAEのアプローチにおける連立損失と残留圧縮の問題を解く。
ほぼロスレスモードでは、元の残差を量子化し、与えられた$ell_infty$エラー境界を満たす。
論文 参考訳(メタデータ) (2022-09-11T12:11:56Z) - Video Coding Using Learned Latent GAN Compression [1.6058099298620423]
ビデオの表現と圧縮にはStyleGANなどのGANの生成能力を活用する。
各フレームはStyleGANの潜在空間で反転され、そこから最適な圧縮が学習される。
論文 参考訳(メタデータ) (2022-07-09T19:07:43Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。