論文の概要: UniMIC: Towards Universal Multi-modality Perceptual Image Compression
- arxiv url: http://arxiv.org/abs/2412.04912v2
- Date: Mon, 09 Dec 2024 09:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:43:04.142608
- Title: UniMIC: Towards Universal Multi-modality Perceptual Image Compression
- Title(参考訳): UniMIC:Universal Multi-modality Perceptual Image Compressionを目指して
- Authors: Yixin Gao, Xin Li, Xiaohan Pan, Runsen Feng, Zongyu Guo, Yiting Lu, Yulin Ren, Zhibo Chen,
- Abstract要約: 汎用多モード画像圧縮フレームワークUniMICを提案する。
UniMICは、複数の画像コーデックに対するRDP最適化を統一することを目的としている。
- 参考スコア(独自算出の注目度): 21.370591256689885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present UniMIC, a universal multi-modality image compression framework, intending to unify the rate-distortion-perception (RDP) optimization for multiple image codecs simultaneously through excavating cross-modality generative priors. Unlike most existing works that need to design and optimize image codecs from scratch, our UniMIC introduces the visual codec repository, which incorporates amounts of representative image codecs and directly uses them as the basic codecs for various practical applications. Moreover, we propose multi-grained textual coding, where variable-length content prompt and compression prompt are designed and encoded to assist the perceptual reconstruction through the multi-modality conditional generation. In particular, a universal perception compensator is proposed to improve the perception quality of decoded images from all basic codecs at the decoder side by reusing text-assisted diffusion priors from stable diffusion. With the cooperation of the above three strategies, our UniMIC achieves a significant improvement of RDP optimization for different compression codecs, e.g., traditional and learnable codecs, and different compression costs, e.g., ultra-low bitrates. The code will be available in https://github.com/Amygyx/UniMIC .
- Abstract(参考訳): マルチモーダル画像圧縮フレームワークであるUniMICは,複数画像コーデックに対するレート・ディストレーション・パーセプション(RDP)の最適化を同時に行うことを目的として,複数モーダル画像の生成先行を探索する。
画像コーデックをゼロから設計し最適化する必要のある既存の作業とは異なり、UniMICでは視覚コーデックレポジトリを導入しています。
さらに、可変長コンテンツプロンプトと圧縮プロンプトを設計、符号化し、多モード条件生成による知覚的再構築を支援するマルチグラニュアルテキスト符号化を提案する。
特に,テキスト支援拡散前処理を安定拡散から再利用することにより,デコーダ側のすべての基本コーデックからのデコード画像の知覚品質を向上させるために,普遍的知覚補償器を提案する。
上記の3つの戦略の協力により,従来のコーデックや学習可能なコーデック,圧縮コストの異なる超低ビットレートなど,異なる圧縮コーデックに対するRDP最適化の大幅な改善を実現した。
コードはhttps://github.com/Amygyx/UniMICで入手できる。
関連論文リスト
- Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Exploiting Inter-Image Similarity Prior for Low-Bitrate Remote Sensing Image Compression [10.427300958330816]
生成された離散コードブックを用いたコードブックベースのRS画像圧縮(Code-RSIC)手法を提案する。
このコードは、知覚品質の観点から、最先端の伝統と学習に基づく画像圧縮アルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-17T03:33:16Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Enhanced Standard Compatible Image Compression Framework based on
Auxiliary Codec Networks [8.440333621142226]
Auxiliary Codec Networks (ACNs) に基づく新しい標準互換画像圧縮フレームワークを提案する。
ACNは、既存の画像劣化操作を模倣するように設計されており、コンパクトな表現ネットワークにより正確な勾配を提供する。
本稿では,JPEGおよび高効率ビデオ符号化(HEVC)標準に基づく提案フレームワークが,既存の画像圧縮アルゴリズムを標準互換性で大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-30T15:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。