論文の概要: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning
- arxiv url: http://arxiv.org/abs/2505.07538v1
- Date: Mon, 12 May 2025 13:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.393812
- Title: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning
- Title(参考訳): 拡散と推論のための自己回帰の離散的視覚トークン
- Authors: Bohan Wang, Zhongqi Yue, Fengda Zhang, Shuo Chen, Li'an Bi, Junzhe Zhang, Xue Song, Kennard Yanting Chan, Jiachun Pan, Weijia Wu, Mingze Zhou, Wang Lin, Kaihang Pan, Saining Zhang, Liyu Jia, Wentao Hu, Wei Zhao, Hanwang Zhang,
- Abstract要約: 自己整合性トークン化装置(Selftok)について紹介する。
設計コアでは、画像生成の逆拡散過程を用いて、自己回帰(AR)を視覚トークンに先立って構成する。
- 参考スコア(独自算出の注目度): 62.39335643853649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We completely discard the conventional spatial prior in image representation and introduce a novel discrete visual tokenizer: Self-consistency Tokenizer (Selftok). At its design core, we compose an autoregressive (AR) prior -- mirroring the causal structure of language -- into visual tokens by using the reverse diffusion process of image generation. The AR property makes Selftok fundamentally distinct from traditional spatial tokens in the following two key ways: - Selftok offers an elegant and minimalist approach to unify diffusion and AR for vision-language models (VLMs): By representing images with Selftok tokens, we can train a VLM using a purely discrete autoregressive architecture -- like that in LLMs -- without requiring additional modules or training objectives. - We theoretically show that the AR prior satisfies the Bellman equation, whereas the spatial prior does not. Therefore, Selftok supports reinforcement learning (RL) for visual generation with effectiveness comparable to that achieved in LLMs. Besides the AR property, Selftok is also a SoTA tokenizer that achieves a favorable trade-off between high-quality reconstruction and compression rate. We use Selftok to build a pure AR VLM for both visual comprehension and generation tasks. Impressively, without using any text-image training pairs, a simple policy gradient RL working in the visual tokens can significantly boost the visual generation benchmark, surpassing all the existing models by a large margin. Therefore, we believe that Selftok effectively addresses the long-standing challenge that visual tokens cannot support effective RL. When combined with the well-established strengths of RL in LLMs, this brings us one step closer to realizing a truly multimodal LLM. Project Page: https://selftok-team.github.io/report/.
- Abstract(参考訳): 画像表現における従来の空間的先行性を完全に排除し、新しい離散的視覚トークン化ツール、Self-Consistency Tokenizer(Selftok)を導入する。
デザインコアでは、画像生成の逆拡散プロセスを用いて、言語因果構造を反映した自己回帰前処理(AR)を視覚トークンに構成する。
selftokは、視覚言語モデル(VLM)のための拡散とARを統一するためのエレガントで最小限のアプローチを提供する。 selftokトークンでイメージを表現することで、LLMのような純粋に離散的な自己回帰的アーキテクチャを使って、VLMをトレーニングできます。
- 理論的には,AR はベルマン方程式を満たすが,空間的先行は満足しない。
したがって、SelftokはLLMに匹敵する視覚生成のための強化学習(RL)をサポートする。
ARプロパティに加えて、Selftokは、高品質な再構築と圧縮率とのトレードオフを良好に達成するSoTAトークンも備えている。
視覚的理解と生成の両方のための純粋なAR VLMを構築するために、Selftokを使用します。
驚くべきことに、テキストイメージのトレーニングペアを使わずに、ビジュアルトークンで機能するシンプルなポリシー勾配RLは、既存のモデルをすべて大きなマージンで上回る、視覚生成ベンチマークを大幅に向上させることができる。
そこで我々は,視覚トークンが効果的なRLをサポートできないという長年の課題に対して,Selftokが効果的に対処できると考えている。
LLMにおけるRLの強みと組み合わせることで、真のマルチモーダルLLMの実現に一歩近づくことができる。
Project Page: https://selftok-team.github.io/report/.com
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment [32.11442595627763]
本稿では,自己回帰表現アライメント(ARRA, Autoregressive Representation Alignment)を提案する。
ARRAは、グローバルな視覚的アライメント損失とハイブリットトークンHYB>を介して、外部視覚モデルからの視覚的表現と隠れ状態のアライメントを行う。
コードとモデルがリリースされ、自動回帰画像生成が進められる。
論文 参考訳(メタデータ) (2025-03-10T13:49:28Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。