論文の概要: Controlling Rate, Distortion, and Realism: Towards a Single Comprehensive Neural Image Compression Model
- arxiv url: http://arxiv.org/abs/2405.16817v1
- Date: Mon, 27 May 2024 04:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 17:00:31.578326
- Title: Controlling Rate, Distortion, and Realism: Towards a Single Comprehensive Neural Image Compression Model
- Title(参考訳): 速度・歪み・リアリズムの制御:1つの包括的ニューラルイメージ圧縮モデルに向けて
- Authors: Shoma Iwai, Tomo Miyazaki, Shinichiro Omachi,
- Abstract要約: 異なるビットレートで画像を圧縮する可変レート生成NICモデルを提案する。
提案手法を取り入れることで,ビットレート,歪み,リアリズムを1つのモデルで調整することができる。
我々の手法は、最先端の単一レート NIC モデルの性能と一致するか、上回っている。
- 参考スコア(独自算出の注目度): 4.096453902709292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, neural network-driven image compression (NIC) has gained significant attention. Some works adopt deep generative models such as GANs and diffusion models to enhance perceptual quality (realism). A critical obstacle of these generative NIC methods is that each model is optimized for a single bit rate. Consequently, multiple models are required to compress images to different bit rates, which is impractical for real-world applications. To tackle this issue, we propose a variable-rate generative NIC model. Specifically, we explore several discriminator designs tailored for the variable-rate approach and introduce a novel adversarial loss. Moreover, by incorporating the newly proposed multi-realism technique, our method allows the users to adjust the bit rate, distortion, and realism with a single model, achieving ultra-controllability. Unlike existing variable-rate generative NIC models, our method matches or surpasses the performance of state-of-the-art single-rate generative NIC models while covering a wide range of bit rates using just one model. Code will be available at https://github.com/iwa-shi/CRDR
- Abstract(参考訳): 近年,ニューラルネットワーク駆動画像圧縮(NIC)が注目されている。
いくつかの研究は、知覚品質(現実主義)を高めるために、GANや拡散モデルのような深い生成モデルを採用する。
これらの生成NIC法の重要な障害は、各モデルが単一のビットレートに最適化されていることである。
そのため、複数のモデルで異なるビットレートで画像を圧縮する必要があるが、これは現実のアプリケーションでは実用的ではない。
この問題に対処するために、可変レート生成NICモデルを提案する。
具体的には、可変レートアプローチに適したいくつかの識別器の設計を探索し、新しい対向損失を導入する。
さらに,新たに提案したマルチリアリズム手法を取り入れることで,単一モデルでビットレート,歪み,リアリズムを調整し,超制御性を実現する。
既存の可変レート生成NICモデルとは異なり、本手法は1つのモデルだけで幅広いビットレートをカバーしつつ、最先端の単一レート生成NICモデルの性能に適合または超越する。
コードはhttps://github.com/iwa-shi/CRDRで入手できる。
関連論文リスト
- Variational autoencoder-based neural network model compression [4.992476489874941]
変分オートエンコーダ(VAE)は、深部生成モデルの一種であり、近年広く使われている。
本稿では,VAEに基づくニューラルネットワークモデル圧縮手法について検討する。
論文 参考訳(メタデータ) (2024-08-25T09:06:22Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - PAC-FNO: Parallel-Structured All-Component Fourier Neural Operators for Recognizing Low-Quality Images [38.773390121161924]
並列構造および全成分フーリエニューラル演算子(PAC-FNO)を用いた新しいニューラルネットワークモデルを提案する。
従来のフィードフォワードニューラルネットワークとは異なり、PAC-FNOは周波数領域で動作し、単一のモデル内で様々な解像度の画像を処理することができる。
提案したPAC-FNOは,様々な解像度の画像上での既存のベースラインモデルの性能を最大77.1%向上し,推論時の画像の様々な種類の自然変化を示す。
論文 参考訳(メタデータ) (2024-02-20T05:06:20Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Dynamic Proximal Unrolling Network for Compressive Sensing Imaging [29.00266254916676]
本稿では,DPUNetと呼ばれる動的近位アンローリングネットワークについて述べる。
具体的には、DPUNetは、勾配降下による埋め込み物理モデルと、学習された動的近位写像による画像のインポーティングの両方を活用できる。
実験結果から,提案したDPUNetは,サンプル比や雑音レベルの異なる複数のCSIモダリティを1つのモデルで効果的に処理できることがわかった。
論文 参考訳(メタデータ) (2021-07-23T03:04:44Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Fast and Robust Cascade Model for Multiple Degradation Single Image
Super-Resolution [2.1574781022415364]
SISR(Single Image Super-Resolution)は、近年注目されている低レベルのコンピュータビジョン問題の一つである。
本稿では、畳み込みニューラルネットワーク(CNN)のカスケードモデルについて、新しい定式化を提案する。
外部知識を用いて各サブモジュールの出力を制限することで,より密結合なCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-16T18:59:49Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。