論文の概要: Advancing The Rate-Distortion-Computation Frontier For Neural Image
Compression
- arxiv url: http://arxiv.org/abs/2311.12821v1
- Date: Tue, 26 Sep 2023 19:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 15:33:00.287370
- Title: Advancing The Rate-Distortion-Computation Frontier For Neural Image
Compression
- Title(参考訳): ニューラル画像圧縮のためのレート歪み計算フロンティアの強化
- Authors: David Minnen and Nick Johnston
- Abstract要約: 速度歪み計算による研究によると、浮動小数点演算(FLOP)も実行時も自力で神経圧縮法を正確にランク付けするには不十分である。
我々は、BPGよりも23.1%の節率で最先端のRD性能が得られる新しいニューラル圧縮アーキテクチャを同定する。
- 参考スコア(独自算出の注目度): 6.167676495563641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rate-distortion performance of neural image compression models has
exceeded the state-of-the-art for non-learned codecs, but neural codecs are
still far from widespread deployment and adoption. The largest obstacle is
having efficient models that are feasible on a wide variety of consumer
hardware. Comparative research and evaluation is difficult due to the lack of
standard benchmarking platforms and due to variations in hardware architectures
and test environments. Through our rate-distortion-computation (RDC) study we
demonstrate that neither floating-point operations (FLOPs) nor runtime are
sufficient on their own to accurately rank neural compression methods. We also
explore the RDC frontier, which leads to a family of model architectures with
the best empirical trade-off between computational requirements and RD
performance. Finally, we identify a novel neural compression architecture that
yields state-of-the-art RD performance with rate savings of 23.1% over BPG
(7.0% over VTM and 3.0% over ELIC) without requiring significantly more FLOPs
than other learning-based codecs.
- Abstract(参考訳): ニューラル画像圧縮モデルの速度歪み性能は、非学習コーデックの最先端を超えているが、ニューラルコーデックは広く展開や採用されるには程遠い。
最大の障害は、さまざまな消費者向けハードウェアで実現可能な効率的なモデルを持つことである。
標準ベンチマークプラットフォームの欠如や、ハードウェアアーキテクチャやテスト環境のバリエーションのため、比較研究と評価は困難である。
速度歪み計算(RDC)を用いて,浮動小数点演算(FLOP)も実行時も単独では十分ではないことを示した。
また、RDCフロンティアを探索し、計算要求とRD性能の最良のトレードオフを伴うモデルアーキテクチャのファミリを導いた。
最後に,BPG(VTMで7.0%,ELICで3.0%)よりも23.1%の削減率で最先端RD性能を実現する新しいニューラル圧縮アーキテクチャを,他の学習ベースコーデックよりもFLOPをはるかに多く必要とせずに同定する。
関連論文リスト
- NeurLZ: On Enhancing Lossy Compression Performance based on Error-Controlled Neural Learning for Scientific Data [35.36879818366783]
大規模科学シミュレーションは、ストレージとI/Oに挑戦する巨大なデータセットを生成する。
我々は、科学データのための新しいクロスフィールド学習およびエラー制御圧縮フレームワークNeurLZを提案する。
論文 参考訳(メタデータ) (2024-09-09T16:48:09Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - RECOMBINER: Robust and Enhanced Compression with Bayesian Implicit
Neural Representations [8.417694229876371]
COMBINERは量子化を回避し、レート歪み性能の直接最適化を可能にする。
我々は,COMBINERの限界を克服するために,Robust and Enhanced COMBINER (RECOMBINER)を提案する。
我々は,RECOMBINERがINRベースの最良の手法と競合し,低解像度画像上でのオートエンコーダベースのコーデックよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T12:27:15Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - An Empirical Analysis of Recurrent Learning Algorithms In Neural Lossy
Image Compression Systems [73.48927855855219]
近年のディープラーニングの進歩により、JPEGとJPEG 2000を標準のKodakベンチマークで上回る画像圧縮アルゴリズムが実現している。
本稿では,最近の最先端ハイブリッドニューラル圧縮アルゴリズムの大規模比較を行う。
論文 参考訳(メタデータ) (2022-01-27T19:47:51Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。