論文の概要: PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2503.09368v1
- Date: Wed, 12 Mar 2025 13:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:38:42.851825
- Title: PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling
- Title(参考訳): PerCoV2: 階層型マスク画像モデリングによる超低ビットレート知覚画像圧縮の改善
- Authors: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller,
- Abstract要約: PerCoV2は、超低ビットレートの知覚画像圧縮システムである。
PerCoV2は帯域幅とストレージに制約のあるアプリケーション用に設計されている。
- 参考スコア(独自算出の注目度): 0.030448596365296413
- License:
- Abstract: We introduce PerCoV2, a novel and open ultra-low bit-rate perceptual image compression system designed for bandwidth- and storage-constrained applications. Building upon prior work by Careil et al., PerCoV2 extends the original formulation to the Stable Diffusion 3 ecosystem and enhances entropy coding efficiency by explicitly modeling the discrete hyper-latent image distribution. To this end, we conduct a comprehensive comparison of recent autoregressive methods (VAR and MaskGIT) for entropy modeling and evaluate our approach on the large-scale MSCOCO-30k benchmark. Compared to previous work, PerCoV2 (i) achieves higher image fidelity at even lower bit-rates while maintaining competitive perceptual quality, (ii) features a hybrid generation mode for further bit-rate savings, and (iii) is built solely on public components. Code and trained models will be released at https://github.com/Nikolai10/PerCoV2.
- Abstract(参考訳): PerCoV2は、帯域幅とストレージに制約のあるアプリケーション向けに設計された、新しくてオープンな超低ビットレートの知覚画像圧縮システムである。
Careilらによる以前の研究に基づいて、PerCoV2はオリジナルの定式化を安定拡散3エコシステムに拡張し、離散超遅延画像分布を明示的にモデル化することでエントロピー符号化効率を向上させる。
この目的のために、エントロピーモデリングのための最近の自己回帰法(VARとMaskGIT)を包括的に比較し、大規模MSCOCO-30kベンチマークに対するアプローチを評価する。
以前の作業と比較すると、PerCoV2
i) 競争力のある知覚品質を維持しつつ、より低いビットレートで高い画像忠実性を達成する。
(ii)さらなるビットレート保存のためのハイブリッド生成モードを備え、
(iii)は、公的な構成要素のみに構築されている。
コードとトレーニングされたモデルはhttps://github.com/Nikolai10/PerCoV2でリリースされる。
関連論文リスト
- HDCompression: Hybrid-Diffusion Image Compression for Ultra-Low Bitrates [35.28538714213459]
ハイブリッド拡散画像圧縮(Hybrid-Diffusion Image Compression、HDCompression)は、VQモデルと拡散モデルの両方を利用するデュアルストリームフレームワークである。
実験の結果,HDCompression は従来の lic, 生成型VQ-modeling, およびハイブリッドフレームワークよりも優れていた。
論文 参考訳(メタデータ) (2025-02-11T00:56:44Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption [52.82508784748278]
本稿では,制御生成画像圧縮フレームワークである制御-GICを提案する。
制御-GICは、高忠実度と一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
符号化符号に従って歴史的多粒度表現を検索できる条件デコーダを開発し、条件付き確率の形式化において階層的特徴を再構築する。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z) - ContextGS: Compact 3D Gaussian Splatting with Anchor Level Context Model [77.71796503321632]
我々は3DGS表現のアンカーレベルにコンテキストモデルを導入し,バニラ3DGSと比較して100倍以上のサイズの縮小を実現した。
我々の研究は3DGS表現のためのアンカーレベルのコンテキストモデルを開拓し、バニラ3DGSに比べて100倍以上、そして最新の最先端のScaffold-GSに比べて15倍の大幅なサイズ縮小を実現した。
論文 参考訳(メタデータ) (2024-05-31T09:23:39Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Robustly overfitting latents for flexible neural image compression [1.7041035606170198]
最先端のニューラルイメージ圧縮モデルは、デコーダに効率的に送信できる量子化潜在表現に画像をエンコードすることを学ぶ。
これらのモデルは実際に成功したが、エンコーダとデコーダの容量が不完全な最適化と制限のため、準最適結果をもたらす。
最近の研究は、Gumbel annealing(SGA)を使用して、トレーニング済みのニューラルイメージ圧縮モデルの潜在性を洗練する方法を示している。
提案手法は,R-Dトレードオフの観点から,前者に比べて圧縮性能が向上することを示す。
論文 参考訳(メタデータ) (2024-01-31T12:32:17Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。