論文の概要: MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large
Multimodal Model
- arxiv url: http://arxiv.org/abs/2402.16749v2
- Date: Thu, 29 Feb 2024 16:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:22:00.671121
- Title: MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large
Multimodal Model
- Title(参考訳): MISC:大規模マルチモーダルモデルによる超低ビットレート画像セマンティック圧縮
- Authors: Chunyi Li, Guo Lu, Donghui Feng, Haoning Wu, Zicheng Zhang, Xiaohong
Liu, Guangtao Zhai, Weisi Lin, Wenjun Zhang
- Abstract要約: 本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
- 参考スコア(独自算出の注目度): 81.35367970135778
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the evolution of storage and communication protocols, ultra-low bitrate
image compression has become a highly demanding topic. However, existing
compression algorithms must sacrifice either consistency with the ground truth
or perceptual quality at ultra-low bitrate. In recent years, the rapid
development of the Large Multimodal Model (LMM) has made it possible to balance
these two goals. To solve this problem, this paper proposes a method called
Multimodal Image Semantic Compression (MISC), which consists of an LMM encoder
for extracting the semantic information of the image, a map encoder to locate
the region corresponding to the semantic, an image encoder generates an
extremely compressed bitstream, and a decoder reconstructs the image based on
the above information. Experimental results show that our proposed MISC is
suitable for compressing both traditional Natural Sense Images (NSIs) and
emerging AI-Generated Images (AIGIs) content. It can achieve optimal
consistency and perception results while saving 50% bitrate, which has strong
potential applications in the next generation of storage and communication. The
code will be released on https://github.com/lcysyzxdxc/MISC.
- Abstract(参考訳): ストレージと通信プロトコルの進化に伴い、超低ビットレート画像圧縮が要求されるトピックとなっている。
しかし、既存の圧縮アルゴリズムは、地上の真実との整合性を犠牲にするか、超低ビットレートでの知覚品質を犠牲にしなければならない。
近年,LMM(Large Multimodal Model)の急速な発展により,これらの2つの目標のバランスが図られている。
本稿では、画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、上記の情報に基づいて画像を再構成するデコーダとからなる、マルチモーダル画像セマンティック圧縮(MISC)と呼ばれる手法を提案する。
実験の結果,提案したMISCは,従来の自然感画像(NSI)とAIGI(AIGI)コンテンツの両方を圧縮するのに適していることがわかった。
50%のビットレートを節約しながら、最適な一貫性と知覚結果を達成することができる。
コードはhttps://github.com/lcysyzxdxc/MISCでリリースされる。
関連論文リスト
- Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Image Compression with Encoder-Decoder Matched Semantic Segmentation [15.536056887418676]
レイヤー画像圧縮は有望な方向です。
セマンティックセグメントを圧縮された画像データと共に送信する作業もある。
エンコーダマッチングセマンティックセグメンテーション(EDMS)を用いた新しいレイヤー画像圧縮フレームワークを提案する。
提案されたEDMSフレームワークは、HEVCベース(BPG)エンコーディング時間よりも最大35.31%のBDレート削減を達成できる。
論文 参考訳(メタデータ) (2021-01-24T04:11:05Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。