論文の概要: Beyond Hallucinations: A Multimodal-Guided Task-Aware Generative Image Compression for Ultra-Low Bitrate
- arxiv url: http://arxiv.org/abs/2512.06344v1
- Date: Sat, 06 Dec 2025 08:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.311644
- Title: Beyond Hallucinations: A Multimodal-Guided Task-Aware Generative Image Compression for Ultra-Low Bitrate
- Title(参考訳): 幻覚を超えて:超低速度ビットレートのためのマルチモーダル誘導タスク認識生成画像圧縮
- Authors: Kaile Wang, Lijun He, Haisheng Fu, Haixia Bi, Fan Li,
- Abstract要約: 本稿では,MTGC(Multimodal-Guided TaskAware Generative Image Compression)フレームワークを提案する。
MTGCはセマンティック一貫性を高めるための3つのガイダンスモダリティを統合している。グローバルセマンティックスのための簡潔で堅牢なテキストキャプション、高度に圧縮された画像、セマンティック・擬ワード(SPW)である。
実験の結果、MTGCはセマンティック一貫性を一貫して改善し、知覚品質が著しく向上し、超低帯域幅での画素レベルの忠実度も向上することが示された。
- 参考スコア(独自算出の注目度): 11.605826922028639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative image compression has recently shown impressive perceptual quality, but often suffers from semantic deviations caused by generative hallucinations at ultra-low bitrate (bpp < 0.05), limiting its reliable deployment in bandwidth-constrained 6G semantic communication scenarios. In this work, we reassess the positioning and role of of multimodal guidance, and propose a Multimodal-Guided Task-Aware Generative Image Compression (MTGC) framework. Specifically, MTGC integrates three guidance modalities to enhance semantic consistency: a concise but robust text caption for global semantics, a highly compressed image (HCI) retaining low-level visual information, and Semantic Pseudo-Words (SPWs) for fine-grained task-relevant semantics. The SPWs are generated by our designed Task-Aware Semantic Compression Module (TASCM), which operates in a task-oriented manner to drive the multi-head self-attention mechanism to focus on and extract semantics relevant to the generation task while filtering out redundancy. Subsequently, to facilitate the synergistic guidance of these modalities, we design a Multimodal-Guided Diffusion Decoder (MGDD) employing a dual-path cooperative guidance mechanism that synergizes cross-attention and ControlNet additive residuals to precisely inject these three guidance into the diffusion process, and leverages the diffusion model's powerful generative priors to reconstruct the image. Extensive experiments demonstrate that MTGC consistently improves semantic consistency (e.g., DISTS drops by 10.59% on the DIV2K dataset) while also achieving remarkable gains in perceptual quality and pixel-level fidelity at ultra-low bitrate.
- Abstract(参考訳): 生成画像圧縮は近年、印象的な知覚品質を示しているが、しばしば極低ビットレート(bpp < 0.05)での生成幻覚による意味的偏差に悩まされ、帯域幅に制約のある6Gセマンティック通信シナリオへの信頼性の高い展開を制限している。
本研究では,マルチモーダルガイダンスの位置づけと役割を再評価し,MTGC(Multimodal-Guided Task-Aware Generative Image Compression)フレームワークを提案する。
具体的には,グローバルセマンティクスのための簡潔で堅牢なテキストキャプション,低レベルの視覚情報を保持する高圧縮画像(HCI),細粒度タスク関連セマンティクスのためのセマンティックPseudo-Words(SPWs)という,セマンティクスの一貫性を高めるための3つのガイダンスモダリティを統合する。
このSPWは,タスク指向型のタスク対応セマンティック圧縮モジュール(TASCM)によって生成され,マルチヘッド型自己認識機構を駆動し,冗長性を除去しながら生成タスクに関連するセマンティクスを抽出する。
その後、これらのモダリティの相乗的ガイダンスを促進するために、相互注意と制御ネット付加残差を相乗化してこれらの3つのガイダンスを拡散過程に正確に注入し、拡散モデルの強力な生成前処理を利用して画像の再構成を行うデュアルパス協調誘導機構を用いて、MGDD(Multimodal-Guided Diffusion Decoder)を設計する。
広範囲にわたる実験により、MTGCはセマンティック一貫性(例えば、DIV2KデータセットではdisTSが10.59%低下する)を一貫して改善し、超低ビットレートでの知覚品質とピクセルレベルの忠実さにおいて顕著な向上を達成した。
関連論文リスト
- Vision-Language Semantic Aggregation Leveraging Foundation Model for Generalizable Medical Image Segmentation [5.597576681565333]
本稿では,期待最大化(EM)アグリゲーション機構とテキストガイド付きPixelデコーダを提案する。
後者は、ドメイン不変のテキスト知識を利用して、深い視覚的表現を効果的に導くことによって、意味的ギャップを埋めるように設計されている。
提案手法は,複数の領域一般化ベンチマークにおいて,既存のSOTA手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-09-10T13:16:30Z) - Dual-branch Prompting for Multimodal Machine Translation [9.903997553625253]
本稿では,D2P-MMTを提案する。D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT)。
D2P-MMTは、事前学習した拡散モデルによって生成されたソーステキストと再構成画像のみを必要とする。
Multi30Kデータセットの実験により、D2P-MMTは既存の最先端手法よりも優れた翻訳性能が得られることが示された。
論文 参考訳(メタデータ) (2025-07-23T15:22:51Z) - Extremely low-bitrate Image Compression Semantically Disentangled by LMMs from a Human Perception Perspective [12.321609213934389]
人間のプログレッシブ・コンプレッション・メカニズムにインスパイアされたセマンティック・ディスタングル・イメージ・圧縮フレームワークを提案する。
我々はLMMを利用して、全体記述、オブジェクト詳細記述、セマンティックセグメンテーションマスクを含む重要なセマンティックコンポーネントを抽出する。
本研究では,事前学習したControlNet上に構築され,オブジェクトレベルのテキスト記述やセマンティックマスクによって条件付けられたオブジェクトの詳細を復元する,注意誘導型オブジェクト復元モデルを提案する。
論文 参考訳(メタデータ) (2025-03-01T08:27:11Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [57.84148140637513]
Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。
OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-21T07:15:37Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。