Fugu-MT 論文翻訳(概要): CMC-Bench: Towards a New Paradigm of Visual Signal Compression

論文の概要: CMC-Bench: Towards a New Paradigm of Visual Signal Compression

arxiv url: http://arxiv.org/abs/2406.09356v1
Date: Thu, 13 Jun 2024 17:41:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 16:25:49.631013
Title: CMC-Bench: Towards a New Paradigm of Visual Signal Compression
Title（参考訳）: CMC-Bench: 視覚信号圧縮の新しいパラダイムを目指して
Authors: Chunyi Li, Xiele Wu, Haoning Wu, Donghui Feng, Zicheng Zhang, Guo Lu, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin,
Abstract要約: 本稿では,画像圧縮のための画像間テキスト(I2T)モデルとテキスト間画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。超低速では、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も先進的な視覚信号プロトコルを超えたことが証明されている。
参考スコア（独自算出の注目度）: 85.1839779884282
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ultra-low bitrate image compression is a challenging and demanding topic. With the development of Large Multimodal Models (LMMs), a Cross Modality Compression (CMC) paradigm of Image-Text-Image has emerged. Compared with traditional codecs, this semantic-level compression can reduce image data size to 0.1\% or even lower, which has strong potential applications. However, CMC has certain defects in consistency with the original image and perceptual quality. To address this problem, we introduce CMC-Bench, a benchmark of the cooperative performance of Image-to-Text (I2T) and Text-to-Image (T2I) models for image compression. This benchmark covers 18,000 and 40,000 images respectively to verify 6 mainstream I2T and 12 T2I models, including 160,000 subjective preference scores annotated by human experts. At ultra-low bitrates, this paper proves that the combination of some I2T and T2I models has surpassed the most advanced visual signal codecs; meanwhile, it highlights where LMMs can be further optimized toward the compression task. We encourage LMM developers to participate in this test to promote the evolution of visual signal codec protocols.
Abstract（参考訳）: 超低ビットレート画像圧縮は困難で要求の多いトピックである。大規模マルチモーダルモデル(LMM)の開発に伴い,画像テキスト画像の相互圧縮(CMC)パラダイムが出現している。従来のコーデックと比較すると、このセマンティックレベルの圧縮は画像データサイズを0.1\%以下に減らし、強力な可能性を持つ。しかし、CMCは、元の画像と知覚品質との整合性にある種の欠陥がある。本稿では,画像圧縮のための画像テキスト(I2T)モデルとテキスト画像(T2I)モデルの協調性能のベンチマークであるCMC-Benchを紹介する。このベンチマークでは、それぞれ18,000と40,000の画像をカバーし、6つのメインストリームのI2Tと12のT2Iモデルを検証する。超低ビットレートでは、いくつかのI2TモデルとT2Iモデルの組み合わせが、最も高度な視覚信号コーデックを超えていることが証明されている。我々はLMM開発者が視覚信号コーデックプロトコルの進化を促進するためにこのテストに参加することを推奨する。

関連論文リスト

Generative Latent Coding for Ultra-Low Bitrate Image and Video Compression [61.500904231491596]
画像圧縮とビデオ圧縮のほとんどの手法は、画素空間における変換符号化を行い、冗長性を低減する。画像とビデオの圧縮, GLCイメージ, GLC-Video のための textbfGenerative textbfLatent textbfGLC (textbfGLC) モデルを提案する。
論文参考訳（メタデータ） (2025-05-22T03:31:33Z)
Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。 textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文参考訳（メタデータ） (2024-08-16T07:23:18Z)
MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文参考訳（メタデータ） (2024-02-26T17:11:11Z)
You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。 licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文参考訳（メタデータ） (2023-06-27T15:36:22Z)
Cross Modal Compression: Towards Human-comprehensible Semantic Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文参考訳（メタデータ） (2022-09-06T15:31:11Z)
PILC: Practical Image Lossless Compression with an End-to-end GPU Oriented Neural Framework [88.18310777246735]
本稿では,1台のNVIDIA Tesla V100 GPUを用いて,圧縮と圧縮の両面で200MB/sを実現するエンドツーエンド画像圧縮フレームワークを提案する。実験により、我々のフレームワークは、複数のデータセットで30%のマージンで、PNGよりも圧縮が優れていることが示された。
論文参考訳（メタデータ） (2022-06-10T03:00:10Z)
Split Hierarchical Variational Compression [21.474095984110622]
可変オートエンコーダ(VAE)は、画像データセットの圧縮を行う上で大きな成功を収めている。 SHVCは、ピクセルごとの自己回帰と完全に分解された確率モデルとの一般化を可能にする、効率的な自己回帰的サブピクセル畳み込みを導入している。
論文参考訳（メタデータ） (2022-04-05T09:13:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。