論文の概要: Taming Large Multimodal Agents for Ultra-low Bitrate Semantically Disentangled Image Compression
- arxiv url: http://arxiv.org/abs/2503.00399v1
- Date: Sat, 01 Mar 2025 08:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:13.359394
- Title: Taming Large Multimodal Agents for Ultra-low Bitrate Semantically Disentangled Image Compression
- Title(参考訳): 超低ビットレート非有角画像圧縮のための大規模マルチモーダルエージェントの試作
- Authors: Juan Song, Lijie Yang, Mingtao Feng,
- Abstract要約: 本稿では,新しい画像圧縮フレームワークSemantically Disentangled Image Compression(SEDIC)を提案する。
提案するSEDICは,大規模マルチモーダルモデル(LMM)を利用して,画像をいくつかの重要な意味情報に分解する。
多段セマンティックデコーダは、送信された参照画像オブジェクトをオブジェクト単位で段階的に復元するように設計されている。
- 参考スコア(独自算出の注目度): 2.542077227403488
- License:
- Abstract: It remains a significant challenge to compress images at ultra-low bitrate while achieving both semantic consistency and high perceptual quality. We propose a novel image compression framework, Semantically Disentangled Image Compression (SEDIC) in this paper. Our proposed SEDIC leverages large multimodal models (LMMs) to disentangle the image into several essential semantic information, including an extremely compressed reference image, overall and object-level text descriptions, and the semantic masks. A multi-stage semantic decoder is designed to progressively restore the transmitted reference image object-by-object, ultimately producing high-quality and perceptually consistent reconstructions. In each decoding stage, a pre-trained controllable diffusion model is utilized to restore the object details on the reference image conditioned by the text descriptions and semantic masks. Experimental results demonstrate that SEDIC significantly outperforms state-of-the-art approaches, achieving superior perceptual quality and semantic consistency at ultra-low bitrates ($\le$ 0.05 bpp). Our code is available at https://github.com/yang-xidian/SEDIC.
- Abstract(参考訳): セマンティック一貫性と高い知覚品質を両立させながら、超低ビットレートで画像を圧縮することは依然として重要な課題である。
本稿では,新しい画像圧縮フレームワークSemantically Disentangled Image Compression(SEDIC)を提案する。
提案するSEDICは,大規模なマルチモーダルモデル(LMM)を利用して,画像を極めて圧縮された参照画像,全体およびオブジェクトレベルのテキスト記述,セマンティックマスクなどの重要なセマンティック情報に分解する。
多段セマンティックデコーダは、送信された参照画像オブジェクトをオブジェクト単位で段階的に復元し、最終的に高品質で知覚的に一貫した再構成を生成するように設計されている。
各復号段階では、予め訓練された制御可能な拡散モデルを用いて、テキスト記述やセマンティックマスクによって条件付けられた参照画像のオブジェクト詳細を復元する。
実験の結果、SEDICは最先端のアプローチよりも優れており、超低ビットレート(0.05bpp)での知覚品質とセマンティック一貫性に優れていた($0.05bpp)。
私たちのコードはhttps://github.com/yang-xidian/SEDIC.comで公開されています。
関連論文リスト
- SQ-GAN: Semantic Image Communications Using Masked Vector Quantization [55.02795214161371]
本研究ではセマンティック・マスケッドVQ-GAN(SQ-GAN)を導入し,セマンティック・タスク指向通信のための画像圧縮を最適化する手法を提案する。
SQ-GANは、セマンティックセマンティックセグメンテーションと新しいセマンティック条件適応マスクモジュール(SAMM)を使用して、画像のセマンティックな重要な特徴を選択的にエンコードする。
論文 参考訳(メタデータ) (2025-02-13T17:35:57Z) - Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Multi-Modality Deep Network for Extreme Learned Image Compression [31.532613540054697]
本稿では,テキストのセマンティック情報を先行情報として利用して画像圧縮性能を誘導する,テキスト誘導画像圧縮のためのマルチモーダル機械学習手法を提案する。
さらに,画像とテキストの特徴を融合させるために,画像テキストアテンションモジュールと画像検索サプリメントモジュールを採用し,セマンティック・コンシステント・ロスを改良し,セマンティック・完全再構築を実現する。
論文 参考訳(メタデータ) (2023-04-26T14:22:59Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。