論文の概要: Optimally Controllable Perceptual Lossy Compression
- arxiv url: http://arxiv.org/abs/2206.10082v1
- Date: Tue, 21 Jun 2022 02:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 19:20:40.412646
- Title: Optimally Controllable Perceptual Lossy Compression
- Title(参考訳): 最適制御可能な知覚損失圧縮
- Authors: Zeyu Yan, Fei Wen, Peilin Liu
- Abstract要約: 損失圧縮の最近の研究は、歪みと知覚品質が互いに相反していることを示している。
異なる知覚品質を得るためには、異なるデコーダをトレーニングする必要がある。
任意のD-Pトレードオフを最適に達成できるデコーダは2つしかないという非自明な発見を示す。
- 参考スコア(独自算出の注目度): 16.208548355509127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies in lossy compression show that distortion and perceptual
quality are at odds with each other, which put forward the tradeoff between
distortion and perception (D-P). Intuitively, to attain different perceptual
quality, different decoders have to be trained. In this paper, we present a
nontrivial finding that only two decoders are sufficient for optimally
achieving arbitrary (an infinite number of different) D-P tradeoff. We prove
that arbitrary points of the D-P tradeoff bound can be achieved by a simple
linear interpolation between the outputs of a minimum MSE decoder and a
specifically constructed perfect perceptual decoder. Meanwhile, the perceptual
quality (in terms of the squared Wasserstein-2 distance metric) can be
quantitatively controlled by the interpolation factor. Furthermore, to
construct a perfect perceptual decoder, we propose two theoretically optimal
training frameworks. The new frameworks are different from the
distortion-plus-adversarial loss based heuristic framework widely used in
existing methods, which are not only theoretically optimal but also can yield
state-of-the-art performance in practical perceptual decoding. Finally, we
validate our theoretical finding and demonstrate the superiority of our
frameworks via experiments. Code is available at:
https://github.com/ZeyuYan/Controllable-Perceptual-Compression
- Abstract(参考訳): 損失圧縮の最近の研究は、歪みと知覚品質が互いに相反していることを示し、歪みと知覚のトレードオフを推し進めた(D-P)。
直感的に異なる知覚品質を達成するためには、異なるデコーダをトレーニングする必要がある。
本稿では,任意の(無限個の異なる)D-Pトレードオフを最適に達成できるデコーダが2つしかないことを明らかにする。
D-Pトレードオフ境界の任意の点は、最小のMSEデコーダと特異的に構築された完全知覚デコーダの出力間の単純な線形補間によって達成できることを示す。
一方、知覚的品質(二乗ワッサーシュタイン2距離メートル法の観点から)は補間係数によって定量的に制御できる。
さらに,完全な知覚的デコーダを構築するために,理論的に最適な2つのトレーニングフレームワークを提案する。
新しいフレームワークは、理論的に最適であるだけでなく、実用的な知覚的復号化において最先端の性能を得ることができる既存の手法で広く使われている歪み+逆損失ベースヒューリスティックフレームワークとは異なる。
最後に、理論的な発見と実験によるフレームワークの優位性を実証する。
コードは、https://github.com/zeyuyan/controllable-perceptual-compressionで入手できる。
関連論文リスト
- A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Flexible Neural Image Compression via Code Editing [8.499248314440557]
ニューラル画像圧縮(NIC)は、レート歪み(R-D)性能において従来の画像コーデックよりも優れていた。
通常、R-D曲線の各点に専用エンコーダとデコーダのペアが必要であるため、実際の展開を妨げている。
本稿では,セミアモタイズされた推論と適応量子化に基づくNICの高フレキシブルな符号化手法であるCode Editingを提案する。
論文 参考訳(メタデータ) (2022-09-19T09:41:43Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Improved decoding of circuit noise and fragile boundaries of tailored
surface codes [61.411482146110984]
高速かつ高精度なデコーダを導入し、幅広い種類の量子誤り訂正符号で使用することができる。
我々のデコーダは、信仰マッチングと信念フィンドと呼ばれ、すべてのノイズ情報を活用し、QECの高精度なデモを解き放つ。
このデコーダは, 標準の正方形曲面符号に対して, 整形曲面符号において, より高いしきい値と低い量子ビットオーバーヘッドをもたらすことがわかった。
論文 参考訳(メタデータ) (2022-03-09T18:48:54Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Universal Rate-Distortion-Perception Representations for Lossy
Compression [31.28856752892628]
我々は、エンコーダを固定し、デコーダを変更して歪みや知覚制約の集合内の任意の点を達成できる普遍表現の概念を考える。
対応する情報理論の普遍的速度歪曲知覚が、近似的な意味で操作可能であることを証明した。
論文 参考訳(メタデータ) (2021-06-18T18:52:08Z) - On Perceptual Lossy Compression: The Cost of Perceptual Reconstruction
and An Optimal Training Framework [12.13586501618741]
完全知覚品質を達成するためのコストは、達成可能なMSE歪みの2倍であることを示す。
完全知覚制約下で最小のMSE歪みを与えられたビットレートで達成するための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-05T02:53:38Z) - Dissecting Supervised Constrastive Learning [24.984074794337157]
高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。
コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することができることを示す。
論文 参考訳(メタデータ) (2021-02-17T15:22:38Z) - Learning to Learn to Compress [25.23586503813838]
画像圧縮のためのエンドツーエンドのメタ学習システムを提案する。
メタラーニングに基づく学習画像圧縮のための新しい訓練パラダイムを提案する。
論文 参考訳(メタデータ) (2020-07-31T13:13:53Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。