論文の概要: Dual-Representation Image Compression at Ultra-Low Bitrates via Explicit Semantics and Implicit Textures
- arxiv url: http://arxiv.org/abs/2602.05213v1
- Date: Thu, 05 Feb 2026 02:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.713523
- Title: Dual-Representation Image Compression at Ultra-Low Bitrates via Explicit Semantics and Implicit Textures
- Title(参考訳): 明示的意味論と暗黙的テクスチャによる極低ビットレートのデュアル表現画像圧縮
- Authors: Chuqin Zhou, Xiaoyue Ling, Yunuo Chen, Jincheng Dai, Guo Lu, Wenjun Zhang,
- Abstract要約: 事前学習モデルから先行モデルを活用する生成的圧縮手法が,有望なパラダイムとして出現している。
既存のアプローチは、意味的忠実性と知覚的リアリズムのトレードオフによって制約される。
本稿では,このギャップを埋める統一的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.444951124177013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent neural codecs achieve strong performance at low bitrates when optimized for perceptual quality, their effectiveness deteriorates significantly under ultra-low bitrate conditions. To mitigate this, generative compression methods leveraging semantic priors from pretrained models have emerged as a promising paradigm. However, existing approaches are fundamentally constrained by a tradeoff between semantic faithfulness and perceptual realism. Methods based on explicit representations preserve content structure but often lack fine-grained textures, whereas implicit methods can synthesize visually plausible details at the cost of semantic drift. In this work, we propose a unified framework that bridges this gap by coherently integrating explicit and implicit representations in a training-free manner. Specifically, We condition a diffusion model on explicit high-level semantics while employing reverse-channel coding to implicitly convey fine-grained details. Moreover, we introduce a plug-in encoder that enables flexible control of the distortion-perception tradeoff by modulating the implicit information. Extensive experiments demonstrate that the proposed framework achieves state-of-the-art rate-perception performance, outperforming existing methods and surpassing DiffC by 29.92%, 19.33%, and 20.89% in DISTS BD-Rate on the Kodak, DIV2K, and CLIC2020 datasets, respectively.
- Abstract(参考訳): 最近のニューラルコーデックは知覚品質に最適化された場合、低ビットレートで高い性能を達成するが、その効果は超低ビットレート条件下で著しく低下する。
これを軽減するために、事前訓練されたモデルからのセマンティックプリエントを利用した生成的圧縮法が有望なパラダイムとして登場した。
しかし、既存のアプローチは、意味的忠実性と知覚的リアリズムのトレードオフによって根本的に制約されている。
明示的な表現に基づく手法は、コンテンツ構造を保存するが、しばしばきめ細かいテクスチャを欠くが、暗黙的な手法は意味的ドリフトのコストで視覚的にもっともらしい詳細を合成することができる。
本研究では,このギャップを埋める統一的なフレームワークを提案する。
具体的には、暗黙的に細かな詳細を伝えるために、逆チャネル符号化を用いて、明示的なハイレベルセマンティクスに拡散モデルを適用する。
さらに、暗黙的な情報を調整することにより、歪み知覚トレードオフを柔軟に制御できるプラグインエンコーダを導入する。
大規模な実験により,提案フレームワークは,Kodak,DIV2K,CLIC2020データセット上のdisTS BD-Rateにおいて,それぞれ29.92%,19.33%,および20.89%のDiffCを上回った。
関連論文リスト
- Single-step Diffusion-based Video Coding with Semantic-Temporal Guidance [24.88807532823577]
本稿では,S2VCを提案する。S2VCは,条件付き符号化フレームワークと効率的な単一ステップ拡散生成器を統合した,単一ステップ拡散に基づくビデオコーデックである。
S2VCは、従来の知覚法よりも平均52.73%の省力で、最先端の知覚品質を提供する。
論文 参考訳(メタデータ) (2025-12-08T12:05:30Z) - BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement [63.54516423266521]
事前学習拡散ベース(PTDB)法は、しばしばコンテンツ忠実さを犠牲にして知覚的リアリズムを高める。
本稿では,事前学習した拡散モデルにおける条件付けのための新しい最適化手法を提案する。
我々のアプローチはプラグアンドプレイであり、より効率的な制御を提供するために既存の拡散ネットワークにシームレスに統合される。
論文 参考訳(メタデータ) (2025-10-20T02:40:06Z) - Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Toward Scalable Image Feature Compression: A Content-Adaptive and Diffusion-Based Approach [44.03561901593423]
本稿では,スケーラブルな画像圧縮のためのコンテンツ適応拡散モデルを提案する。
提案手法は拡散過程を通じて微細なテクスチャを符号化し,知覚品質を向上する。
画像再構成および下流マシンビジョンタスクにおいて,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-10-08T15:48:34Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。