論文の概要: Dual-Latent Collaborative Decoding for Fidelity-Perception Balanced Image Compression
- arxiv url: http://arxiv.org/abs/2605.14391v1
- Date: Thu, 14 May 2026 05:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.637199
- Title: Dual-Latent Collaborative Decoding for Fidelity-Perception Balanced Image Compression
- Title(参考訳): 重み付き知覚バランス画像圧縮のためのデュアルレイテンシコラボレーティブデコーディング
- Authors: Qi Mao, Zijian Wang, Zhengxue Cheng, Lingyu Zhu, Siwei Ma,
- Abstract要約: 本稿では,相補的潜在パラダイム間での責務を分解する,二重遅延協調的復号化フレームワークを提案する。
MoDEは、SQブランチをフィデリティ指向の専門家として、VQブランチを知覚指向の専門家として扱い、2つのデコーダ側モジュールを通じてそれらを調整する。
このフレームワークは、共有デュアルストリームビットストリーム下での選択的クロスレイテンシ協調をサポートし、忠実度アンコールと知覚アンコールの両方のデコーディングを可能にする。
- 参考スコア(独自算出の注目度): 35.48235920552014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned image compression (LIC) increasingly requires reconstructions that balance distortion fidelity and perceptual realism across a wide range of bitrates. However, most existing methods still rely on a single compressed latent representation to simultaneously carry structural details, semantic cues, and perceptual priors, requiring the same latent representation to serve multiple, potentially conflicting roles. This tension becomes evident across different latent paradigms: scalar-quantized (SQ) continuous latents provide rate-scalable fidelity but tend to lose perceptual details at low rates, while vector-quantized (VQ) discrete tokens preserve compact semantic cues but suffer from limited structural fidelity and bitrate scalability. To address this issue, we propose Mixture of Decoder Experts (MoDE), a dual-latent collaborative decoding framework that decomposes reconstruction responsibilities across complementary latent paradigms. Specifically, MoDE treats the SQ branch as a fidelity-oriented expert and the VQ branch as a perception-oriented expert, and coordinates them through two decoder-side modules: Expert-Specific Enhancement (ESE), which preserves branch-specific expert references, and Cross-Expert Modulation (CEM), which enables selective complementary transfer during reconstruction. The resulting framework supports selective cross-latent collaboration under a shared dual-stream bitstream and enables both fidelity-anchored and perception-anchored decoding. Extensive experiments demonstrate that MoDE achieves a more favorable fidelity-perception balance than representative distortion-oriented, perception-oriented, generative, and dual-latent baselines across a wide bitrate range, highlighting decoder-side expert collaboration as an effective design for wide-range fidelity-perception balanced LIC.
- Abstract(参考訳): 学習された画像圧縮(lic)は、広範囲のビットレートにわたって歪みの忠実度と知覚的リアリズムのバランスをとる再構成をますます要求する。
しかし、既存のほとんどのメソッドは、構造的詳細、意味的手がかり、知覚的事前を同時に持たせるために、単一の圧縮された潜在表現に依存しており、同じ潜在表現が複数の、潜在的に矛盾する役割を果たす必要がある。
scal-quantized (SQ) continuous latent はレートスケーリング可能な忠実さを提供するが、低レートで知覚の詳細を失う傾向にあり、一方、ベクトル量子化 (VQ) 離散トークンはコンパクトなセマンティックキューを保存するが、構造的忠実性とビットレートのスケーラビリティに制限される。
この問題に対処するために、補完的な潜在パラダイム間で再構成責任を分解する二段階協調復号化フレームワークであるMixture of Decoder Experts (MoDE)を提案する。
具体的には、SQブランチをフィデリティ指向の専門家として、VQブランチを知覚指向の専門家として扱い、それらを2つのデコーダ側モジュールとしてコーディネートする。
このフレームワークは、共有デュアルストリームビットストリーム下での選択的クロスラテントコラボレーションをサポートし、フィデリティアンコールと知覚アンコールの両方のデコーディングを可能にする。
大規模な実験により、MoDEは、広帯域の歪み指向、知覚指向、生成性、二重遅延ベースラインよりも、より好ましいフィデリティ知覚バランスを実現し、広帯域のフィデリティ知覚バランスの効果的な設計としてデコーダ側のエキスパートコラボレーションを強調した。
関連論文リスト
- Visual Enhanced Depth Scaling for Multimodal Latent Reasoning [32.211888127924446]
マルチモーダル潜在推論は、明示的なChain-of-Thoughtデコーディングを暗黙的な特徴伝達に置き換える、有望なパラダイムとして登場した。
視覚的認識を協調的に強化し,より深い文脈推論のために複雑な潜伏を洗練するための視覚再生モジュールとルーティング深度スケーリングを提案する。
我々のフレームワークは、さまざまなベンチマークで最先端のパフォーマンスを実現しつつ、明示的なCoTベースラインよりもかなりの推論スピードアップを実現しています。
論文 参考訳(メタデータ) (2026-04-12T07:14:30Z) - UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations [45.861324782424326]
現在の統合マルチモーダルモデルは、通常、モダリティギャップを埋めるために離散的な視覚トークン化器に依存している。
圧縮された連続表現によるマルチモーダル理解と生成を調和させる統一フレームワークUniComを導入する。
論文 参考訳(メタデータ) (2026-03-11T12:14:26Z) - Feature-level Interaction Explanations in Multimodal Transformers [1.7101146971136896]
マルチモーダルトランスフォーマーは、異なるモーダルが共同で意思決定をどのように支援するかを明確にすることなく、予測を生成する。
本稿では,凍結した事前学習エンコーダからトークン/パッチシーケンスを直接操作する構造化Mixture-of-Experts層であるFeature-level I2MoEを提案する。
我々は,帰属とトップK%マスキングを組み合わせ,忠実度を評価する専門的な説明パイプラインを開発する。
論文 参考訳(メタデータ) (2026-03-04T18:24:31Z) - Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding [58.92526489742584]
我々は無益な無益な提案をする。
承認されたトークンの数を大幅に増加させる検証方法。
HSDは様々なモデルファミリやベンチマークの受け入れ率に一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-09T11:10:29Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。