論文の概要: Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis
- arxiv url: http://arxiv.org/abs/2507.01756v1
- Date: Wed, 02 Jul 2025 14:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.289346
- Title: Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis
- Title(参考訳): 離散トークンの再考:連続自己回帰画像合成条件としてのテーマの扱い
- Authors: Peng Zheng, Junke Wang, Yi Chang, Yizhou Yu, Rui Ma, Zuxuan Wu,
- Abstract要約: DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisCon は ImageNet 256$times$256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰手法よりも明確なマージンで優れている。
- 参考スコア(独自算出の注目度): 79.98107530577576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have spurred interests in encoding images as discrete tokens and leveraging autoregressive (AR) frameworks for visual generation. However, the quantization process in AR-based visual generation models inherently introduces information loss that degrades image fidelity. To mitigate this limitation, recent studies have explored to autoregressively predict continuous tokens. Unlike discrete tokens that reside in a structured and bounded space, continuous representations exist in an unbounded, high-dimensional space, making density estimation more challenging and increasing the risk of generating out-of-distribution artifacts. Based on the above findings, this work introduces DisCon (Discrete-Conditioned Continuous Autoregressive Model), a novel framework that reinterprets discrete tokens as conditional signals rather than generation targets. By modeling the conditional probability of continuous representations conditioned on discrete tokens, DisCon circumvents the optimization challenges of continuous token modeling while avoiding the information loss caused by quantization. DisCon achieves a gFID score of 1.38 on ImageNet 256$\times$256 generation, outperforming state-of-the-art autoregressive approaches by a clear margin.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、画像を離散トークンとしてエンコードすることや、視覚生成に自己回帰(AR)フレームワークを活用することに関心を喚起している。
しかし、ARベースの視覚生成モデルにおける量子化プロセスは本質的には、画像の忠実度を低下させる情報損失をもたらす。
この制限を緩和するために、最近の研究では、連続トークンを自己回帰的に予測する方法が検討されている。
構造化された有界空間に存在する離散トークンとは異なり、連続表現は非有界な高次元空間に存在するため、密度推定はより困難になり、分布外アーティファクトを生成するリスクが増大する。
上記の知見に基づいて、本研究では、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークであるDisCon(Discrete-Conditioned Continuous Autoregressive Model)を導入する。
離散トークンに条件付された連続表現の条件付き確率をモデル化することにより、DisConは量子化による情報損失を回避しつつ、連続トークンモデリングの最適化課題を回避する。
DisCon は ImageNet 256$\times$256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰手法よりも明確なマージンで優れている。
関連論文リスト
- Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Continuous Speculative Decoding for Autoregressive Image Generation [33.05392461723613]
連続評価された自己回帰(AR)画像生成モデルは、離散的傾向よりも顕著な優位性を示している。
投機的復号化は大規模言語モデル(LLM)の加速に有効であることが証明された
この研究は離散トークンから連続空間への投機的復号アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。