論文の概要: LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization
- arxiv url: http://arxiv.org/abs/2602.16086v1
- Date: Tue, 17 Feb 2026 23:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.466825
- Title: LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization
- Title(参考訳): LGQ: スケーラブルで安定した画像トークン化のための離散化幾何学学習
- Authors: Idil Bilge Altun, Mert Onur Cakiroglu, Elham Buxton, Mehmet Dalkilic, Hasan Kurban,
- Abstract要約: Learnable Geometric Quantization (LGQ) は、識別幾何学をエンドツーエンドに学習する離散画像トークンである。
16Kのコードブックサイズでは、LGQはFSQよりも11.88%、アクティブコードでは49.96%、SimVQより6.06%、効果的な表現レートでは49.45%改善している。
- 参考スコア(独自算出の注目度): 1.631115063641726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete image tokenization is a key bottleneck for scalable visual generation: a tokenizer must remain compact for efficient latent-space priors while preserving semantic structure and using discrete capacity effectively. Existing quantizers face a trade-off: vector-quantized tokenizers learn flexible geometries but often suffer from biased straight-through optimization, codebook under-utilization, and representation collapse at large vocabularies. Structured scalar or implicit tokenizers ensure stable, near-complete utilization by design, yet rely on fixed discretization geometries that may allocate capacity inefficiently under heterogeneous latent statistics. We introduce Learnable Geometric Quantization (LGQ), a discrete image tokenizer that learns discretization geometry end-to-end. LGQ replaces hard nearest-neighbor lookup with temperature-controlled soft assignments, enabling fully differentiable training while recovering hard assignments at inference. The assignments correspond to posterior responsibilities of an isotropic Gaussian mixture and minimize a variational free-energy objective, provably converging to nearest-neighbor quantization in the low-temperature limit. LGQ combines a token-level peakedness regularizer with a global usage regularizer to encourage confident yet balanced code utilization without imposing rigid grids. Under a controlled VQGAN-style backbone on ImageNet across multiple vocabulary sizes, LGQ achieves stable optimization and balanced utilization. At 16K codebook size, LGQ improves rFID by 11.88% over FSQ while using 49.96% fewer active codes, and improves rFID by 6.06% over SimVQ with 49.45% lower effective representation rate, achieving comparable fidelity with substantially fewer active entries. Our GitHub repository is available at: https://github.com/KurbanIntelligenceLab/LGQ
- Abstract(参考訳): 離散画像のトークン化は、スケーラブルなビジュアル生成において重要なボトルネックである。トークン化は、セマンティックな構造を保持し、離散的なキャパシティを効果的に使用しながら、効率的な潜在空間の事前処理のためにコンパクトでなければならない。
既存の量子化器はトレードオフに直面している: ベクトル量子化トークン化器はフレキシブルなジオメトリを学ぶが、しばしばバイアスのあるストレートスルー最適化、コードブックのアンダーユーティリティ化、大語彙での表現崩壊に悩まされる。
構造付きスカラーまたは暗黙のトークン化器は、設計による安定したほぼ完全な利用を保証するが、不均一な潜在統計量の下で非効率に容量を割り当てる固定された離散化測度に依存している。
本稿では,識別幾何学をエンドツーエンドに学習する離散画像トークンであるLearnerable Geometric Quantization (LGQ)を紹介する。
LGQは、近くのハードなルックアップを温度制御されたソフトアサインに置き換え、推論時のハードアサインを回復しながら、完全に差別化可能なトレーニングを可能にする。
代入は等方性ガウス混合の後方責任に対応し、変分自由エネルギーの目的を最小化し、低温限界における最も近い隣の量子化に確実に収束する。
LGQはトークンレベルのピーク値正規化器とグローバルな利用正規化器を組み合わせることで、堅固なグリッドを課すことなく、確実ながらバランスのとれたコード利用を促進する。
複数の語彙サイズにわたるImageNet上の制御されたVQGANスタイルのバックボーンの下で、LGQは安定した最適化とバランスの取れた利用を実現する。
16Kのコードブックサイズでは、LGQはFSQよりも11.88%、アクティブコードでは49.96%、SimVQより6.06%、効果的な表現レートでは49.45%改善し、ほぼ少ないアクティブエントリで同等の忠実さを実現している。
GitHubリポジトリは、https://github.com/KurbanIntelligenceLab/LGQで利用可能です。
関連論文リスト
- Generalized Radius and Integrated Codebook Transforms for Differentiable Vector Quantization [11.898954874548073]
我々は、VQを完全に差別化しつつ、前方パスにハードアサインを保持する統一的なサロゲートフレームワークを導入する。
GRIT-VQは、既存のVQの変種と比較して、復元誤差、生成品質、精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-01T10:22:35Z) - A Deep Latent Factor Graph Clustering with Fairness-Utility Trade-off Perspective [0.7568373895297608]
グラフに合わせたエンドツーエンドの非負の3要素化であるemphDFNMFを紹介する。
1つのパラメータ$lambda$はフェアネス-ユーティリティバランスを調整しますが、非負性はパーツベースの要素と透明なソフトメンバシップを生成します。
合成および実ネットワーク全体で、DFNMFは、同等のモジュラリティでグループバランスを大幅に高める。
論文 参考訳(メタデータ) (2025-10-27T16:40:52Z) - Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - UniTok: A Unified Tokenizer for Visual Generation and Understanding [63.23796622553615]
視覚生成および理解モデルは通常、画像を処理するために異なるトークン化器に依存する。
我々は、新しいマルチコードブック量子化機構を備えた統一トークン化システムUniTokを紹介する。
最終的なパフォーマンスに関しては、UniTokはImageNetで0.38 rFIDと78.6%のゼロショット精度で新記録を樹立した。
論文 参考訳(メタデータ) (2025-02-27T17:47:01Z) - GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。
一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。
CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2025-01-26T17:56:11Z) - Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。