論文の概要: Diversify, Contextualize, and Adapt: Efficient Entropy Modeling for Neural Image Codec
- arxiv url: http://arxiv.org/abs/2411.05832v1
- Date: Wed, 06 Nov 2024 04:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:00.116628
- Title: Diversify, Contextualize, and Adapt: Efficient Entropy Modeling for Neural Image Codec
- Title(参考訳): 多様化・文脈化・適応:ニューラルイメージコーデックの効率的なエントロピーモデリング
- Authors: Jun-Hyuk Kim, Seungeon Kim, Won-Hee Lee, Dokwan Oh,
- Abstract要約: より効率的な後方適応型エントロピーモデルが最近開発されている。
彼らのパフォーマンスは、前向きな適応のためのデザイン規約のシンプルな採用によって制限されている、と私たちは主張する。
本稿では,ビットレートを犠牲にすることなく,事前適応に十分なコンテキストを利用する,シンプルで効果的なエントロピーモデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.078070771578837
- License:
- Abstract: Designing a fast and effective entropy model is challenging but essential for practical application of neural codecs. Beyond spatial autoregressive entropy models, more efficient backward adaptation-based entropy models have been recently developed. They not only reduce decoding time by using smaller number of modeling steps but also maintain or even improve rate--distortion performance by leveraging more diverse contexts for backward adaptation. Despite their significant progress, we argue that their performance has been limited by the simple adoption of the design convention for forward adaptation: using only a single type of hyper latent representation, which does not provide sufficient contextual information, especially in the first modeling step. In this paper, we propose a simple yet effective entropy modeling framework that leverages sufficient contexts for forward adaptation without compromising on bit-rate. Specifically, we introduce a strategy of diversifying hyper latent representations for forward adaptation, i.e., using two additional types of contexts along with the existing single type of context. In addition, we present a method to effectively use the diverse contexts for contextualizing the current elements to be encoded/decoded. By addressing the limitation of the previous approach, our proposed framework leads to significant performance improvements. Experimental results on popular datasets show that our proposed framework consistently improves rate--distortion performance across various bit-rate regions, e.g., 3.73% BD-rate gain over the state-of-the-art baseline on the Kodak dataset.
- Abstract(参考訳): 高速で効果的なエントロピーモデルの設計は難しいが、神経コーデックの実践には不可欠である。
空間自己回帰エントロピーモデル以外にも、より効率的な後方適応に基づくエントロピーモデルが近年開発されている。
少数のモデリングステップを使用することでデコード時間を短縮するだけでなく、より多様なコンテキストを活用して後方適応を行うことで、レート歪みのパフォーマンスを維持または改善する。
それらの顕著な進歩にもかかわらず、これらの性能は、特に最初のモデリングステップにおいて、十分なコンテキスト情報を提供しない単一のタイプの超潜在表現のみを使用するという、前方適応のための設計規約の単純な導入によって制限されたと論じる。
本稿では,ビットレートを犠牲にすることなく,事前適応に十分なコンテキストを活用する,シンプルで効果的なエントロピーモデリングフレームワークを提案する。
具体的には、前向き適応のための超潜在表現を多様化する戦略、すなわち、既存の単一タイプのコンテキストとともに2つの追加のコンテキストを使用する戦略を導入する。
さらに,現在の要素を符号化/復号化するために,多様なコンテキストを効果的に利用する手法を提案する。
従来のアプローチの限界に対処することで、提案したフレームワークは、大幅なパフォーマンス向上につながります。
一般的なデータセットに対する実験結果から,提案するフレームワークは,Kodakデータセットの最先端ベースラインよりも3.73%のBDレートゲインなど,様々なビットレート領域におけるレート歪み性能を継続的に向上することが示された。
関連論文リスト
- Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。
実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文 参考訳(メタデータ) (2024-11-26T10:54:33Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Variational Bayes image restoration with compressive autoencoders [4.879530644978008]
逆問題の正規化は、計算イメージングにおいて最重要となる。
本研究では,まず,最先端生成モデルの代わりに圧縮型オートエンコーダを提案する。
第2の貢献として、変分ベイズ潜時推定(VBLE)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:49:31Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Diffusion Model for Dense Matching [34.13580888014]
ペア画像間の密接な対応を確立する目的は、データ項と先行項の2つの項からなる。
我々はDiffMatchを提案する。DiffMatchは、データと事前条件の両方を明示的にモデル化する新しい条件付き拡散ベースのフレームワークである。
実験の結果,既存の手法に比べて,提案手法の大幅な性能向上が示された。
論文 参考訳(メタデータ) (2023-05-30T14:58:24Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - End-to-end Neural Coreference Resolution Revisited: A Simple yet
Effective Baseline [20.431647446999996]
本稿では、コア参照解決のための単純で効果的なベースラインを提案する。
我々のモデルは、オリジナルのニューラルコア参照解決モデルの簡易版である。
我々の研究は、既存のモデルや新しく提案されたモデルの複雑さを慎重に正当化する必要性を示す証拠を提供する。
論文 参考訳(メタデータ) (2021-07-04T18:12:24Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。