論文の概要: Next-Frame Decoding for Ultra-Low-Bitrate Image Compression with Video Diffusion Priors
- arxiv url: http://arxiv.org/abs/2603.15129v1
- Date: Mon, 16 Mar 2026 11:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.096113
- Title: Next-Frame Decoding for Ultra-Low-Bitrate Image Compression with Video Diffusion Priors
- Title(参考訳): ビデオ拡散プリミティブを用いた超低ビットレート画像圧縮の次フレームデコーディング
- Authors: Yunuo Chen, Chuqin Zhou, Jiangchuan Li, Xiaoyue Ling, Bing He, Jincheng Dai, Li Song, Guo Lu,
- Abstract要約: 超低ビットレート画像圧縮(ULB-IC)のための新しいパラダイムを提案する。
我々はデコード中の明示的な中間状態(コンパクトアンカーフレーム)を定義する。
次に、生成復号化を、このアンカーから最終的な再構成画像への仮想時間遷移として再解釈する。
- 参考スコア(独自算出の注目度): 30.653078447499894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel paradigm for ultra-low-bitrate image compression (ULB-IC) that exploits the ``temporal'' evolution in generative image compression. Specifically, we define an explicit intermediate state during decoding: a compact anchor frame, which preserves the scene geometry and semantic layout while discarding high-frequency details. We then reinterpret generative decoding as a virtual temporal transition from this anchor to the final reconstructed image.To model this progression, we leverage a pretrained video diffusion model (VDM) as temporal priors: the anchor frame serves as the initial frame and the original image as the target frame, transforming the decoding process into a next-frame prediction task.In contrast to image diffusion-based ULB-IC models, our decoding proceeds from a visible, semantically faithful anchor, which improves both fidelity and realism for perceptual image compression. Extensive experiments demonstrate that our method achieves superior objective and subjective performance. On the CLIC2020 test set, our method achieves over \textbf{50\% bitrate savings} across LPIPS, DISTS, FID, and KID compared to DiffC, while also delivering a significant decoding speedup of up to $\times$5. Code will be released later.
- Abstract(参考訳): 生成画像圧縮における「時間的」進化を利用した超低ビットレート画像圧縮(ULB-IC)のための新しいパラダイムを提案する。
具体的には、デコード中の明示的な中間状態を定義する:コンパクトアンカーフレームは、高周波の詳細を破棄しながら、シーンの形状とセマンティックなレイアウトを保存する。
次に、このアンカーから最終的な再構成画像への仮想的時間的遷移として生成復号を再解釈し、この進行をモデル化するために、事前訓練されたビデオ拡散モデル(VDM)を時間的先行として利用し、アンカーフレームが初期フレームおよび原画像として機能し、復号処理を次のフレーム予測タスクに変換する。
大規模な実験により,本手法はより優れた目的と主観的性能を達成できることが示された。
CLIC2020 テストセットでは,LPIPS, DISTS, FID, KID にまたがる \textbf{50\%bitrate saves} を DiffC と比較し,最大$\times$5 のデコード高速化を実現した。
コードは後でリリースされる。
関連論文リスト
- Low-Bitrate Video Compression through Semantic-Conditioned Diffusion [19.21409064179896]
本報告では, 先行前の生成の詳細を頼りながら, 最も意味のある情報のみを伝達する重大障害を提案する。
条件付きビデオは、セマンティック、外観、モーションキューから高品質で時間的に整合したビデオを再構成する。
論文 参考訳(メタデータ) (2025-11-29T09:38:16Z) - Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。