Fugu-MT 論文翻訳(概要): Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

論文の概要: Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

arxiv url: http://arxiv.org/abs/2503.16430v1
Date: Thu, 20 Mar 2025 17:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.568212
Title: Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation
Title（参考訳）: 自己回帰視覚生成のための連続的および離散的トークンのブリッジ
Authors: Yuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu,
Abstract要約: 本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
参考スコア（独自算出の注目度）: 63.89280381800457
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Autoregressive visual generation models typically rely on tokenizers to compress images into tokens that can be predicted sequentially. A fundamental dilemma exists in token representation: discrete tokens enable straightforward modeling with standard cross-entropy loss, but suffer from information loss and tokenizer training instability; continuous tokens better preserve visual details, but require complex distribution modeling, complicating the generation pipeline. In this paper, we propose TokenBridge, which bridges this gap by maintaining the strong representation capacity of continuous tokens while preserving the modeling simplicity of discrete tokens. To achieve this, we decouple discretization from the tokenizer training process through post-training quantization that directly obtains discrete tokens from continuous representations. Specifically, we introduce a dimension-wise quantization strategy that independently discretizes each feature dimension, paired with a lightweight autoregressive prediction mechanism that efficiently model the resulting large token space. Extensive experiments show that our approach achieves reconstruction and generation quality on par with continuous methods while using standard categorical prediction. This work demonstrates that bridging discrete and continuous paradigms can effectively harness the strengths of both approaches, providing a promising direction for high-quality visual generation with simple autoregressive modeling. Project page: https://yuqingwang1029.github.io/TokenBridge.
Abstract（参考訳）: 自己回帰視覚生成モデルは一般的に、順次予測可能なトークンに画像を圧縮するためにトークン化器に依存する。トークン表現には基本的なジレンマがある: 離散トークンは標準的なクロスエントロピー損失による単純なモデリングを可能にするが、情報損失とトークン発行者のトレーニング不安定に悩まされる。本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持することで,このギャップを埋めるTokenBridgeを提案する。これを実現するために、連続表現から離散トークンを直接取得するポストトレーニング量子化により、トークン化学習プロセスから離散化を分離する。具体的には、各特徴次元を独立に離散化する次元ワイド量子化戦略を導入し、結果として生じる大きなトークン空間を効率的にモデル化する軽量な自己回帰予測機構と組み合わせる。大規模な実験により,本手法は標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質が得られることが示された。この研究は、離散的かつ連続的なパラダイムをブリッジすることで、両方のアプローチの強みを効果的に活用できることを示し、単純な自己回帰モデリングによる高品質な視覚生成に有望な方向を提供する。プロジェクトページ: https://yuqingwang1029.github.io/TokenBridge.com

関連論文リスト

Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。 DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文参考訳（メタデータ） (2025-07-02T14:33:52Z)
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文参考訳（メタデータ） (2025-03-21T13:58:49Z)
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文参考訳（メタデータ） (2025-03-20T14:41:29Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文参考訳（メタデータ） (2025-03-07T10:34:04Z)
Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文参考訳（メタデータ） (2024-10-23T11:06:36Z)
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文参考訳（メタデータ） (2024-07-01T15:43:25Z)
Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文参考訳（メタデータ） (2024-03-04T17:34:59Z)
ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文参考訳（メタデータ） (2023-04-07T15:17:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。