Fugu-MT 論文翻訳(概要): MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model

論文の概要: MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model

arxiv url: http://arxiv.org/abs/2402.16749v2
Date: Thu, 29 Feb 2024 16:53:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 17:22:00.671121
Title: MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model
Title（参考訳）: MISC:大規模マルチモーダルモデルによる超低ビットレート画像セマンティック圧縮
Authors: Chunyi Li, Guo Lu, Donghui Feng, Haoning Wu, Zicheng Zhang, Xiaohong Liu, Guangtao Zhai, Weisi Lin, Wenjun Zhang
Abstract要約: 本稿では,マルチモーダル画像セマンティック圧縮法を提案する。画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
参考スコア（独自算出の注目度）: 81.35367970135778
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the evolution of storage and communication protocols, ultra-low bitrate image compression has become a highly demanding topic. However, existing compression algorithms must sacrifice either consistency with the ground truth or perceptual quality at ultra-low bitrate. In recent years, the rapid development of the Large Multimodal Model (LMM) has made it possible to balance these two goals. To solve this problem, this paper proposes a method called Multimodal Image Semantic Compression (MISC), which consists of an LMM encoder for extracting the semantic information of the image, a map encoder to locate the region corresponding to the semantic, an image encoder generates an extremely compressed bitstream, and a decoder reconstructs the image based on the above information. Experimental results show that our proposed MISC is suitable for compressing both traditional Natural Sense Images (NSIs) and emerging AI-Generated Images (AIGIs) content. It can achieve optimal consistency and perception results while saving 50% bitrate, which has strong potential applications in the next generation of storage and communication. The code will be released on https://github.com/lcysyzxdxc/MISC.
Abstract（参考訳）: ストレージと通信プロトコルの進化に伴い、超低ビットレート画像圧縮が要求されるトピックとなっている。しかし、既存の圧縮アルゴリズムは、地上の真実との整合性を犠牲にするか、超低ビットレートでの知覚品質を犠牲にしなければならない。近年,LMM(Large Multimodal Model)の急速な発展により,これらの2つの目標のバランスが図られている。本稿では、画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、上記の情報に基づいて画像を再構成するデコーダとからなる、マルチモーダル画像セマンティック圧縮(MISC)と呼ばれる手法を提案する。実験の結果,提案したMISCは,従来の自然感画像(NSI)とAIGI(AIGI)コンテンツの両方を圧縮するのに適していることがわかった。 50%のビットレートを節約しながら、最適な一貫性と知覚結果を達成することができる。コードはhttps://github.com/lcysyzxdxc/MISCでリリースされる。

関連論文リスト

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization [59.481950697968706]
残留ベクトル量子化(RVQ)に基づくコンパクトなプログレッシブ生成画像圧縮(ProGIC)を提案する。 RVQでは、ベクトル量子化器の列がステージごとに残余を符号化し、それぞれが独自のコードブックを持つ。これを奥行き分離可能な畳み込みと小さな注意ブロックに基づく軽量なバックボーンと組み合わせることで、GPUとCPUのみのデバイスに実用的なデプロイを可能にします。
論文参考訳（メタデータ） (2026-03-03T11:47:05Z)
StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文参考訳（メタデータ） (2025-06-27T07:39:21Z)
Generative Latent Coding for Ultra-Low Bitrate Image and Video Compression [61.500904231491596]
画像圧縮とビデオ圧縮のほとんどの手法は、画素空間における変換符号化を行い、冗長性を低減する。画像とビデオの圧縮, GLCイメージ, GLC-Video のための textbfGenerative textbfLatent textbfGLC (textbfGLC) モデルを提案する。
論文参考訳（メタデータ） (2025-05-22T03:31:33Z)
Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-03T14:29:54Z)
Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。 textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文参考訳（メタデータ） (2024-08-16T07:23:18Z)
CMC-Bench: Towards a New Paradigm of Visual Signal Compression [85.1839779884282]
本稿では,画像圧縮のための画像間テキスト(I2T)モデルとテキスト間画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。超低速では、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も先進的な視覚信号プロトコルを超えたことが証明されている。
論文参考訳（メタデータ） (2024-06-13T17:41:37Z)
You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。 licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文参考訳（メタデータ） (2023-06-27T15:36:22Z)
Cross Modal Compression: Towards Human-comprehensible Semantic Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文参考訳（メタデータ） (2022-09-06T15:31:11Z)
Image Compression with Encoder-Decoder Matched Semantic Segmentation [15.536056887418676]
レイヤー画像圧縮は有望な方向です。セマンティックセグメントを圧縮された画像データと共に送信する作業もある。エンコーダマッチングセマンティックセグメンテーション(EDMS)を用いた新しいレイヤー画像圧縮フレームワークを提案する。提案されたEDMSフレームワークは、HEVCベース(BPG)エンコーディング時間よりも最大35.31%のBDレート削減を達成できる。
論文参考訳（メタデータ） (2021-01-24T04:11:05Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。