Fugu-MT 論文翻訳(概要): 2D Gaussians Meet Visual Tokenizer

論文の概要: 2D Gaussians Meet Visual Tokenizer

arxiv url: http://arxiv.org/abs/2508.13515v2
Date: Wed, 20 Aug 2025 01:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-21 12:38:45.415967
Title: 2D Gaussians Meet Visual Tokenizer
Title（参考訳）: 2Dガウシアンがビジュアル・トケナイザーを発表
Authors: Yiang Shi, Xiaoyang Guo, Wei Yin, Mingkai Jia, Qian Zhang, Xiaolin Hu, Wenyu Liu, Xinggang Wang,
Abstract要約: VQ-GANのような既存の量子化ベースのトークンは、主にテクスチャや色のような外観機能に焦点を当てている。構造モデリングを明示的に強化する新しいトークン化パラダイムであるVisual Gaussian Quantization (VGQ)を提案する。 ImageNet 256x256ベンチマークでは、VGQは、rFIDスコア1.00の強い再構成品質を達成した。
参考スコア（独自算出の注目度）: 46.20437041493538
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The image tokenizer is a critical component in AR image generation, as it determines how rich and structured visual content is encoded into compact representations. Existing quantization-based tokenizers such as VQ-GAN primarily focus on appearance features like texture and color, often neglecting geometric structures due to their patch-based design. In this work, we explored how to incorporate more visual information into the tokenizer and proposed a new framework named Visual Gaussian Quantization (VGQ), a novel tokenizer paradigm that explicitly enhances structural modeling by integrating 2D Gaussians into traditional visual codebook quantization frameworks. Our approach addresses the inherent limitations of naive quantization methods such as VQ-GAN, which struggle to model structured visual information due to their patch-based design and emphasis on texture and color. In contrast, VGQ encodes image latents as 2D Gaussian distributions, effectively capturing geometric and spatial structures by directly modeling structure-related parameters such as position, rotation and scale. We further demonstrate that increasing the density of 2D Gaussians within the tokens leads to significant gains in reconstruction fidelity, providing a flexible trade-off between token efficiency and visual richness. On the ImageNet 256x256 benchmark, VGQ achieves strong reconstruction quality with an rFID score of 1.00. Furthermore, by increasing the density of 2D Gaussians within the tokens, VGQ gains a significant boost in reconstruction capability and achieves a state-of-the-art reconstruction rFID score of 0.556 and a PSNR of 24.93, substantially outperforming existing methods. Codes will be released soon.
Abstract（参考訳）: 画像トークン化器は、リッチで構造化された視覚コンテンツをコンパクトな表現にエンコードするかどうかを決定するため、AR画像生成において重要なコンポーネントである。 VQ-GANのような既存の量子化ベースのトークンは、主にテクスチャや色のような外観の特徴に焦点を当てており、しばしばパッチベースの設計のために幾何学的構造を無視している。本研究では,従来のビジュアルコードブック量子化フレームワークに2次元ガウスアンを統合することで,構造モデリングを明確に強化する新しいトークン化パラダイムであるVisual Gaussian Quantization (VGQ)を提案する。提案手法は,VQ-GANのような,パッチベースの設計やテクスチャや色彩に重点を置く構造的視覚情報のモデル化に苦慮する,単純量子化手法の本質的な限界に対処する。対照的に、VGQは画像潜像を2次元ガウス分布として符号化し、位置、回転、スケールなどの構造関連パラメータを直接モデル化することで、幾何学的および空間的構造を効果的に捉える。さらに,トークン内の2次元ガウス密度の増加は,トークン効率と視覚的豊かさの間に柔軟なトレードオフをもたらすため,復元忠実度を著しく向上させることを示した。 ImageNet 256x256ベンチマークでは、VGQは、rFIDスコア1.00の強い再構成品質を達成した。さらに、トークン内の2Dガウス密度を増大させることで、VGQは再建能力を大幅に向上させ、最先端の再現rFIDスコア0.556、PSNR24.93を達成し、既存の方法よりも大幅に向上した。コードも間もなくリリースされる予定だ。

関連論文リスト

Fast 2DGS: Efficient Image Representation with Deep Gaussian Prior [21.89104780995278]
Fast-2DGSは効率的なガウス画像表現のための軽量なフレームワークである。本稿では,ガウスプリミティブの空間分布を捉えるための条件付きネットワークとして実装されたDeep Gaussian Priorを紹介する。実験により、この非絡み合ったアーキテクチャは、1つの前方通過で高品質な再構築を実現し、次いで最小限の微調整を行うことが示された。
論文参考訳（メタデータ） (2025-12-14T17:23:28Z)
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。 VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文参考訳（メタデータ） (2025-11-28T17:26:34Z)
DINO-Tok: Adapting DINO for Visual Tokenizers [52.194754463297706]
DINO-Tokは、階層的表現を情報完全潜在空間に統一する視覚トークンである。 ImageNetでは、DINO-Tokは最先端の再構築性能を達成し、自動エンコーディングでは28.54 PSNR、VQベースのモデリングでは23.98 PSNRに達した。
論文参考訳（メタデータ） (2025-11-25T18:00:00Z)
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。 ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文参考訳（メタデータ） (2025-07-11T09:32:45Z)
Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文参考訳（メタデータ） (2025-03-11T12:09:11Z)
GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。 CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文参考訳（メタデータ） (2025-01-26T17:56:11Z)
XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation [54.2574228021317]
XQ-GANは画像再構成と生成の両方のために設計された画像トークン化フレームワークである。我々のフレームワークは、ベクトル量子化(VQ)、残留量子化(RQ)、マルチスケール残留量子化(MSVQ)、製品量子化(PQ)、バイナリ球面量子化(BSQ)など、最先端の量子化技術を統合する。標準の ImageNet 256x256 ベンチマークでは,本モデルが MAGVIT-v2 (0.9 rFID) と VAR (0.9 rFID) を大幅に上回り,0.64 の rFID を達成した。
論文参考訳（メタデータ） (2024-12-02T17:58:06Z)
Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文参考訳（メタデータ） (2024-07-02T00:45:21Z)
MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation [41.029441562130984]
2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
論文参考訳（メタデータ） (2022-09-19T13:26:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。