論文の概要: Distributed Image Compression with Multimodal Side Information at Extremely Low Bitrates
- arxiv url: http://arxiv.org/abs/2605.22061v1
- Date: Thu, 21 May 2026 06:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.123627
- Title: Distributed Image Compression with Multimodal Side Information at Extremely Low Bitrates
- Title(参考訳): 極低ビットレートにおけるマルチモーダル側情報を用いた分散画像圧縮
- Authors: Guojun Xu, Mingyang Zhang, Jianwen Xiang, Cheng Tan, Yanchao Yang, Junwei Zhou,
- Abstract要約: 本稿では,マルチモーダルな側面情報をDICパラダイムに活用するマルチモーダルDICフレームワークを提案する。
具体的には、相関画像から抽出したテキスト側情報に対して、テキストから画像への拡散に基づくデコーダを導入する。
我々はMDICが極めて低いデータセットで最先端の知覚品質を実現することを示す。
- 参考スコア(独自算出の注目度): 14.545899504614674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed Image Compression (DIC) is crucial for multi-view transmission, especially when operating at extremely low bitrates (< 0.1 bpp). Its core challenge is effectively utilizing side information to achieve high-quality reconstruction under strict bitrate budgets. However, existing DIC approaches struggle to exploit global context and object-level details from side information, leading to local blurring and the loss of fine details in the reconstruction. To address these limitations, we propose a Multimodal DIC framework (MDIC), which, for the first time, leverages side information in a multimodal manner into the DIC paradigm, effectively preserving fine-grained local details and enhancing global perceptual quality in reconstructed images. Specifically, we introduce a text-to-image diffusion-based decoder conditioned on textual side information extracted from correlated images to capture shared global semantics. Moreover, we design a feature-mask generator, supervised by a multimodal fine-grained alignment task, to strengthen the exploitation of visual side information. The generated mask serves two purposes: first, it guides the extraction of fine-grained details from losslessly transmitted side information to preserve the semantic consistency of reconstructed details; second, it regulates the extraction of clustered feature representations from the quantized VQ-VAE embeddings, compensating for category information lost under the extreme compression of the primary image. Extensive experiments on the widely used KITTI Stereo and Cityscapes datasets demonstrate that MDIC achieves state-of-the-art perceptual quality at extremely low bitrates.
- Abstract(参考訳): 分散画像圧縮(DIC)は、特に極低ビットレート(< 0.1bpp)で動作する場合、マルチビュー伝送に不可欠である。
その中核的な課題は、厳格なビットレート予算の下で、サイド情報を効果的に活用して高品質な再構築を実現することである。
しかし、既存のDICアプローチでは、サイド情報からグローバルなコンテキストやオブジェクトレベルの詳細を活用できないため、局所的なぼやけや、再構築の細部が失われる。
これらの制約に対処するため,MDIC(Multimodal DIC framework)を提案する。このフレームワークは,マルチモーダルな側面情報をDICパラダイムに活用し,局所的な細部を効果的に保存し,再構成画像のグローバルな知覚品質を向上させる。
具体的には、相関画像から抽出したテキスト側情報に基づいて、テキストから画像への拡散に基づくデコーダを導入し、共有グローバルセマンティクスをキャプチャする。
さらに,マルチモーダルな微粒化アライメントタスクによって教師される特徴マスク生成器を設計し,視覚的側面情報の活用を強化する。
生成したマスクは、2つの目的を果たす: 第一に、損失のない送信側情報からの細かな詳細の抽出を誘導し、再構成された詳細のセマンティック一貫性を保ち、第二に、量子化されたVQ-VAE埋め込みからクラスタ化された特徴表現の抽出を規制し、一次画像の極端な圧縮の下で失われたカテゴリ情報を補償する。
広く使われているKITTI StereoとCityscapesのデータセットに関する大規模な実験は、MDICが極めて低いビットレートで最先端の知覚品質を達成することを示した。
関連論文リスト
- Extremely low-bitrate Image Compression Semantically Disentangled by LMMs from a Human Perception Perspective [12.321609213934389]
人間のプログレッシブ・コンプレッション・メカニズムにインスパイアされたセマンティック・ディスタングル・イメージ・圧縮フレームワークを提案する。
我々はLMMを利用して、全体記述、オブジェクト詳細記述、セマンティックセグメンテーションマスクを含む重要なセマンティックコンポーネントを抽出する。
本研究では,事前学習したControlNet上に構築され,オブジェクトレベルのテキスト記述やセマンティックマスクによって条件付けられたオブジェクトの詳細を復元する,注意誘導型オブジェクト復元モデルを提案する。
論文 参考訳(メタデータ) (2025-03-01T08:27:11Z) - UniUIR: Considering Underwater Image Restoration as An All-in-One Learner [62.65503609562905]
我々はUniUIRと呼ばれるユニバーサル水中画像復元手法を提案する。
劣化固有の問題を分離し、UIRタスクにおける様々な劣化の相関関係を探るため、我々はMamba Mixture-of-Expertsモジュールを設計した。
このモジュールは、空間領域と周波数領域の両方において劣化前の情報を抽出し、最適なタスク固有のプロンプトを適応的に選択する。
論文 参考訳(メタデータ) (2025-01-22T16:10:42Z) - SSP-IR: Semantic and Structure Priors for Diffusion-based Realistic Image Restoration [20.873676111265656]
SSP-IRは、低画質の画像からセマンティックと構造をフル活用することを目的としている。
提案手法は,合成および実世界のデータセットにおいて,他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Single Image Dehazing with An Independent Detail-Recovery Network [117.86146907611054]
個別のDetail Recovery Network (DRN) を用いた単一画像デハージング手法を提案する。
DRNは、それぞれのローカルブランチとグローバルブランチを通じて、デハズドイメージの詳細を復元することを目的としている。
本手法は, 定量的, 定性的に, 最先端の脱ハージング法より優れる。
論文 参考訳(メタデータ) (2021-09-22T02:49:43Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。