論文の概要: Adaptive Fused Prior Transfer for Controllable Generative Image Compression
- arxiv url: http://arxiv.org/abs/2605.16817v1
- Date: Sat, 16 May 2026 05:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.103283
- Title: Adaptive Fused Prior Transfer for Controllable Generative Image Compression
- Title(参考訳): 制御可能な生成画像圧縮のための適応的融合事前転送法
- Authors: Yifei Pei, Ying Liu, Nam Ling,
- Abstract要約: 本稿では,制御可能な生成画像圧縮のための適応的融合優先転送を提案する。
これは、凍結した事前訓練されたAdaCodeモデルから、適応的な融合を前もって転送する制御可能な転送である。
デコーダのレイテンシを18.1%削減し、全体のパラメータをDCVICと比較して31.10万 (20.5%)削減する。
- 参考スコア(独自算出の注目度): 10.733481328643235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned image compression has achieved competitive rate-distortion performance, but very-low-bitrate reconstruction remains difficult because the transmitted representation often cannot preserve fine textures and local structures. Perceptual and generative codecs address this problem by using learned reconstruction priors, and controllable codecs allow one model to cover different bitrate and reconstruction preferences. However, controllability alone does not resolve the decoder-side reconstruction-prior problem: under severe bit constraints, the decoder must infer missing details from limited transmitted information, while existing codebook-based controllable designs generally rely on single-codebook token-based priors. This paper proposes Adaptive Fused Prior Transfer for Controllable Generative Image Compression (AFP-GIC), a controllable codec that transfers an adaptive fused prior from a frozen pretrained AdaCode model. Encoder-side fused-prior features guide latent formation, while the decoder predicts a compatible fused prior from the compressed representation and selected control variables, enabling prior-guided reconstruction without transmitting the fused prior itself. A motivating analysis relates decoder-side fused-prior alignment to a reconstruction-error upper bound and shows that the fused-prior family contains single-codebook choices as special cases. Under the unified benchmark, AFP-GIC reduces decoder latency by 18.1% and the overall parameter count by 31.10 million (20.5%) relative to DC-VIC. Experiments on Kodak, CLIC2020, and DIV2K show competitive PSNR, with the clearest perceptual gains in NIQE scores and very-low-bitrate visual comparisons.
- Abstract(参考訳): 学習された画像圧縮は、競合する速度歪み性能を達成したが、伝達された表現が微妙なテクスチャや局所構造を保存できないため、非常に低ビットレートの再構成は難しいままである。
知覚的および生成的コーデックは、学習された再構成先行値を用いてこの問題に対処し、制御可能なコーデックにより、1つのモデルが異なるビットレートと再構成の好みをカバーできる。
厳しいビット制限の下では、デコーダは送信された限られた情報から欠落した詳細を推測しなければならないが、既存のコードブックベースの制御可能設計は一般にシングルコードブックのトークンベースの事前設計に依存している。
本稿では,制御可能生成画像圧縮のための適応フューズド事前転送(AFP-GIC)を提案する。
エンコーダ側フューズドプライアは遅延形成をガイドし、デコーダは圧縮された表現と選択された制御変数から互換性のあるフューズドを予測する。
モチベーション分析では、デコーダ側フューズドプリアライメントを再構成エラー上限に関連付け、フューズドプライスドファミリーが特別なケースとしてシングルコードブックの選択を含むことを示す。
統一されたベンチマークでは、AFP-GICはデコーダのレイテンシを18.1%削減し、全体的なパラメータはDC-VICと比較して31.10万 (20.5%)削減した。
Kodak、CLIC2020、DIV2Kの実験では、NIQEスコアで最も明瞭な知覚的利得と非常に低ビットレートの視覚的比較で、競争力のあるPSNRが示されている。
関連論文リスト
- Generation Is Compression: Zero-Shot Video Coding via Stochastic Rectified Flow [1.8898767128464697]
emphGenerative Video Codebook Codec (GVCC)は、事前訓練されたビデオ生成モデルをそれ自体に変換するゼロショットフレームワークである。
この統合されたバックボーン上に構築された3つの条件付け戦略 – emphImage-to-Video (I2V), emphText-to-Video (T2V), emphFirst-Last-Frame-to-Video (FLF2V) – をインスタンス化する。
論文 参考訳(メタデータ) (2026-03-27T16:33:20Z) - Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaptation [52.82508784748278]
本稿では,制御生成画像圧縮フレームワークである制御-GICを提案する。
制御-GICは、高忠実度と一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
実験により,制御-GICは高い柔軟かつ制御可能な適応を可能にし,その結果が最近の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z) - Neural Image Compression Using Masked Sparse Visual Representation [17.229601298529825]
本研究では,Sparse Visual Representation (SVR) に基づくニューラル画像圧縮について検討し,学習されたビジュアルコードブックにまたがる離散潜在空間に画像が埋め込まれた。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームなコードワードインデックスを転送する。
本稿では,マスクを潜在機能部分空間に適用して品質のバランスと再構築を行うMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
論文 参考訳(メタデータ) (2023-09-20T21:59:23Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。