論文の概要: Dual Codebook VQ: Enhanced Image Reconstruction with Reduced Codebook Size
- arxiv url: http://arxiv.org/abs/2503.10832v1
- Date: Thu, 13 Mar 2025 19:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:39.285372
- Title: Dual Codebook VQ: Enhanced Image Reconstruction with Reduced Codebook Size
- Title(参考訳): Dual Codebook VQ: コードブックサイズを縮小した画像再構成
- Authors: Parisa Boodaghi Malidarreh, Jillur Rahman Saurav, Thuong Le Hoai Pham, Amir Hajighasemi, Anahita Samadi, Saurabh Shrinivas Maydeo, Mohammad Sadegh Nasr, Jacob M. Luber,
- Abstract要約: ベクトル量子化(VQ)技術は、コードブック利用における課題に直面し、画像モデリングにおける再構成忠実度を制限する。
本稿では,表現を補完的なグローバルコンポーネントとローカルコンポーネントに分割することで,この制限を効果的に解決するDual Codebookメカニズムを提案する。
提案手法は,様々な画像領域,特にシーンや顔の再構成作業において優れたFID改善を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Vector Quantization (VQ) techniques face significant challenges in codebook utilization, limiting reconstruction fidelity in image modeling. We introduce a Dual Codebook mechanism that effectively addresses this limitation by partitioning the representation into complementary global and local components. The global codebook employs a lightweight transformer for concurrent updates of all code vectors, while the local codebook maintains precise feature representation through deterministic selection. This complementary approach is trained from scratch without requiring pre-trained knowledge. Experimental evaluation across multiple standard benchmark datasets demonstrates state-of-the-art reconstruction quality while using a compact codebook of size 512 - half the size of previous methods that require pre-training. Our approach achieves significant FID improvements across diverse image domains, particularly excelling in scene and face reconstruction tasks. These results establish Dual Codebook VQ as an efficient paradigm for high-fidelity image reconstruction with significantly reduced computational requirements.
- Abstract(参考訳): ベクトル量子化(VQ)技術は、コードブックの利用において重要な課題に直面し、画像モデリングにおける再構成忠実度を制限する。
本稿では,表現を補完的なグローバルコンポーネントとローカルコンポーネントに分割することで,この制限を効果的に解決するDual Codebook機構を提案する。
グローバルコードブックは、すべてのコードベクトルの同時更新に軽量なトランスフォーマーを使用し、ローカルコードブックは決定論的選択を通じて正確な特徴表現を維持している。
この補完的なアプローチは、事前訓練された知識を必要とせずに、ゼロから訓練される。
複数の標準ベンチマークデータセットに対する実験的評価は、事前トレーニングを必要とする以前の方法の半分の大きさのコンパクトなコードブックを使用しながら、最先端の再構築品質を示している。
提案手法は,様々な画像領域,特にシーンや顔の再構成作業において優れたFID改善を実現する。
これらの結果から、Dual Codebook VQは、計算要求を大幅に削減した高忠実度画像再構成のための効率的なパラダイムとして確立された。
関連論文リスト
- Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99% [35.710953589794855]
本稿では,VQGAN-LC (Large Codebook) という新しい画像量子化モデルを提案する。
本稿では,画像再構成,画像分類,GPTを用いた自己回帰画像生成,拡散およびフローベース生成モデルによる画像生成など,さまざまなタスクにおいて,モデルの性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T17:59:57Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。
4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-15T07:24:13Z) - Dual Associated Encoder for Face Restoration [68.49568459672076]
低品質(LQ)画像から顔の詳細を復元するために,DAEFRという新しいデュアルブランチフレームワークを提案する。
提案手法では,LQ入力から重要な情報を抽出する補助的なLQ分岐を導入する。
合成と実世界の両方のデータセットに対するDAEFRの有効性を評価する。
論文 参考訳(メタデータ) (2023-08-14T17:58:33Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Hierarchical Residual Learning Based Vector Quantized Variational
Autoencoder for Image Reconstruction and Generation [19.92324010429006]
本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。
画像再構成と生成のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-08-09T06:04:25Z) - Towards Robust Blind Face Restoration with Codebook Lookup Transformer [94.48731935629066]
ブラインドフェイスの修復は、しばしば補助的なガイダンスを必要とする非常に不適切な問題である。
学習した個別のコードブックを小さなプロキシ空間に配置し,ブラインドフェイスの復元をコード予測タスクとすることを示す。
我々は、低品質顔のグローバルな構成とコンテキストをモデル化するトランスフォーマーベースの予測ネットワーク、CodeFormerを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。