論文の概要: UniMIC: Towards Universal Multi-modality Perceptual Image Compression
- arxiv url: http://arxiv.org/abs/2412.04912v2
- Date: Mon, 09 Dec 2024 09:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 11:30:29.814644
- Title: UniMIC: Towards Universal Multi-modality Perceptual Image Compression
- Title(参考訳): UniMIC:Universal Multi-modality Perceptual Image Compressionを目指して
- Authors: Yixin Gao, Xin Li, Xiaohan Pan, Runsen Feng, Zongyu Guo, Yiting Lu, Yulin Ren, Zhibo Chen,
- Abstract要約: 汎用多モード画像圧縮フレームワークUniMICを提案する。
UniMICは、複数の画像コーデックに対するRDP最適化を統一することを目的としている。
- 参考スコア(独自算出の注目度): 21.370591256689885
- License:
- Abstract: We present UniMIC, a universal multi-modality image compression framework, intending to unify the rate-distortion-perception (RDP) optimization for multiple image codecs simultaneously through excavating cross-modality generative priors. Unlike most existing works that need to design and optimize image codecs from scratch, our UniMIC introduces the visual codec repository, which incorporates amounts of representative image codecs and directly uses them as the basic codecs for various practical applications. Moreover, we propose multi-grained textual coding, where variable-length content prompt and compression prompt are designed and encoded to assist the perceptual reconstruction through the multi-modality conditional generation. In particular, a universal perception compensator is proposed to improve the perception quality of decoded images from all basic codecs at the decoder side by reusing text-assisted diffusion priors from stable diffusion. With the cooperation of the above three strategies, our UniMIC achieves a significant improvement of RDP optimization for different compression codecs, e.g., traditional and learnable codecs, and different compression costs, e.g., ultra-low bitrates. The code will be available in https://github.com/Amygyx/UniMIC .
- Abstract(参考訳): マルチモーダル画像圧縮フレームワークであるUniMICは,複数画像コーデックに対するレート・ディストレーション・パーセプション(RDP)の最適化を同時に行うことを目的として,複数モーダル画像の生成先行を探索する。
画像コーデックをゼロから設計し最適化する必要のある既存の作業とは異なり、UniMICでは視覚コーデックレポジトリを導入しています。
さらに、可変長コンテンツプロンプトと圧縮プロンプトを設計、符号化し、多モード条件生成による知覚的再構築を支援するマルチグラニュアルテキスト符号化を提案する。
特に,テキスト支援拡散前処理を安定拡散から再利用することにより,デコーダ側のすべての基本コーデックからのデコード画像の知覚品質を向上させるために,普遍的知覚補償器を提案する。
上記の3つの戦略の協力により,従来のコーデックや学習可能なコーデック,圧縮コストの異なる超低ビットレートなど,異なる圧縮コーデックに対するRDP最適化の大幅な改善を実現した。
コードはhttps://github.com/Amygyx/UniMICで入手できる。
関連論文リスト
- Exploiting Inter-Image Similarity Prior for Low-Bitrate Remote Sensing Image Compression [10.427300958330816]
生成された離散コードブックを用いたコードブックベースのRS画像圧縮(Code-RSIC)手法を提案する。
このコードは、知覚品質の観点から、最先端の伝統と学習に基づく画像圧縮アルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-17T03:33:16Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Enhanced Standard Compatible Image Compression Framework based on
Auxiliary Codec Networks [8.440333621142226]
Auxiliary Codec Networks (ACNs) に基づく新しい標準互換画像圧縮フレームワークを提案する。
ACNは、既存の画像劣化操作を模倣するように設計されており、コンパクトな表現ネットワークにより正確な勾配を提供する。
本稿では,JPEGおよび高効率ビデオ符号化(HEVC)標準に基づく提案フレームワークが,既存の画像圧縮アルゴリズムを標準互換性で大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-30T15:42:06Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。