論文の概要: Exploiting Discriminative Codebook Prior for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2508.10719v1
- Date: Thu, 14 Aug 2025 15:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.372294
- Title: Exploiting Discriminative Codebook Prior for Autoregressive Image Generation
- Title(参考訳): 自己回帰画像生成に先立つ差別的コードブックの爆発
- Authors: Longxiang Tang, Ruihang Chu, Xiang Wang, Yujin Han, Pingyu Wu, Chunming He, Yingya Zhang, Shiwei Zhang, Jiaya Jia,
- Abstract要約: トークンベースの自己回帰画像生成システムは、まずトークンインデックスのシーケンスをコードブックでトークン化し、次にこれらのシーケンスを自己回帰パラダイムでモデル化する。
自己回帰生成モデルはインデックス値のみに基づいて訓練されるが、豊富なトークン類似性情報を含むコードブックにエンコードされた前者は利用されない。
近年の研究では、トークン上に単純なk平均クラスタリングを行い、コードブックを減らした生成モデルのトレーニングを容易にすることで、これを先に組み込もうとしている。
k-meansの代替として、差別的コードブック先駆者(DCPE)を提案する。
- 参考スコア(独自算出の注目度): 54.14166700058777
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advanced discrete token-based autoregressive image generation systems first tokenize images into sequences of token indices with a codebook, and then model these sequences in an autoregressive paradigm. While autoregressive generative models are trained only on index values, the prior encoded in the codebook, which contains rich token similarity information, is not exploited. Recent studies have attempted to incorporate this prior by performing naive k-means clustering on the tokens, helping to facilitate the training of generative models with a reduced codebook. However, we reveal that k-means clustering performs poorly in the codebook feature space due to inherent issues, including token space disparity and centroid distance inaccuracy. In this work, we propose the Discriminative Codebook Prior Extractor (DCPE) as an alternative to k-means clustering for more effectively mining and utilizing the token similarity information embedded in the codebook. DCPE replaces the commonly used centroid-based distance, which is found to be unsuitable and inaccurate for the token feature space, with a more reasonable instance-based distance. Using an agglomerative merging technique, it further addresses the token space disparity issue by avoiding splitting high-density regions and aggregating low-density ones. Extensive experiments demonstrate that DCPE is plug-and-play and integrates seamlessly with existing codebook prior-based paradigms. With the discriminative prior extracted, DCPE accelerates the training of autoregressive models by 42% on LlamaGen-B and improves final FID and IS performance.
- Abstract(参考訳): 高度な離散トークンベースの自己回帰画像生成システムは、まずトークンインデックスのシーケンスをコードブックでトークン化し、次にこれらのシーケンスを自己回帰パラダイムでモデル化する。
自己回帰生成モデルはインデックス値のみに基づいて訓練されるが、豊富なトークン類似性情報を含むコードブックにエンコードされた前者は利用されない。
近年の研究では、トークン上に単純なk平均クラスタリングを行い、コードブックを減らした生成モデルのトレーニングを容易にすることで、これを先に組み込もうとしている。
しかし,k平均クラスタリングは,トークン空間の相違やセントロイド距離の不正確さなど,固有の問題のため,コードブックの特徴空間では不十分であることがわかった。
そこで本研究では,k-meansクラスタリングの代替として,コードブックに埋め込まれたトークン類似性情報をより効果的にマイニングし,活用するための識別コードブック先行エクストラクタ(DCPE)を提案する。
DCPEは一般的に使われるセントロイドベースの距離を置き換えるが、これはトークンの特徴空間に不適当で不正確であることが判明し、より合理的なインスタンスベースの距離が与えられる。
高密度領域の分割を回避し、低密度領域の集約を回避することで、トークン空間の格差問題にさらに対処する。
大規模な実験では、DCPEはプラグアンドプレイであり、既存のコードブックの先行パラダイムとシームレスに統合されている。
差別的事前抽出により、DCPEはLlamaGen-B上での自己回帰モデルのトレーニングを42%高速化し、最終的なFIDおよびIS性能を向上させる。
関連論文リスト
- Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - Prototypical Hash Encoding for On-the-Fly Fine-Grained Category Discovery [65.16724941038052]
カテゴリ対応プロトタイプ生成(CPG)とディスクリミカテゴリ5.3%(DCE)が提案されている。
CPGは、各カテゴリを複数のプロトタイプで表現することで、カテゴリ内の多様性を完全にキャプチャすることを可能にする。
DCEは生成されたカテゴリプロトタイプのガイダンスによってハッシュコードの識別能力を向上する。
論文 参考訳(メタデータ) (2024-10-24T23:51:40Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Sparse Attention-Based Neural Networks for Code Classification [15.296053323327312]
コード分類のためのスパース注意型ニューラルネットワーク(SACC)を提案する。
最初のステップでは、ソースコードは構文解析と前処理を行う。
サブツリーの符号化されたシーケンスは、分類のためにスパースアテンション機構を組み込んだTransformerモデルに入力される。
論文 参考訳(メタデータ) (2023-11-11T14:07:12Z) - EdVAE: Mitigating Codebook Collapse with Evidential Discrete Variational Autoencoders [11.086500036180222]
コードブックの崩壊は、離散表現空間を持つ深層生成モデルの訓練において一般的な問題である。
本稿では,dVAEのコードブック崩壊問題に対処するために,ソフトマックスの代わりに顕在的深層学習(EDL)を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:39:26Z) - Sparse-Inductive Generative Adversarial Hashing for Nearest Neighbor
Search [8.020530603813416]
本稿では,Sparsity-induced Generative Adversarial Hashing (SiGAH)と呼ばれる新しい教師なしハッシュ法を提案する。
SiGAHは、大規模な高次元特徴をバイナリコードにエンコードする。
Tiny100K、GIST1M、Deep1M、MNISTの4つのベンチマーク実験の結果、提案されたSiGAHは最先端のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-06-12T08:07:23Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。
本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。
実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T07:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。