論文の概要: Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
- arxiv url: http://arxiv.org/abs/2502.20388v2
- Date: Thu, 20 Mar 2025 18:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:53:24.611437
- Title: Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
- Title(参考訳): Next-Token: 自動回帰視覚生成のための次世代予測
- Authors: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen,
- Abstract要約: 自己回帰(AR)モデリングは、最先端の言語と視覚的生成モデルを支える。
伝統的に、トークン'' は最小の予測単位として扱われ、しばしば言語における離散的なシンボルまたは視覚における量子化されたパッチとして扱われる。
トークンの概念をエンティティXに拡張するフレームワークであるxARを提案する。
- 参考スコア(独自算出の注目度): 34.112157859384645
- License:
- Abstract: Autoregressive (AR) modeling, known for its next-token prediction paradigm, underpins state-of-the-art language and visual generative models. Traditionally, a ``token'' is treated as the smallest prediction unit, often a discrete symbol in language or a quantized patch in vision. However, the optimal token definition for 2D image structures remains an open question. Moreover, AR models suffer from exposure bias, where teacher forcing during training leads to error accumulation at inference. In this paper, we propose xAR, a generalized AR framework that extends the notion of a token to an entity X, which can represent an individual patch token, a cell (a $k\times k$ grouping of neighboring patches), a subsample (a non-local grouping of distant patches), a scale (coarse-to-fine resolution), or even a whole image. Additionally, we reformulate discrete token classification as continuous entity regression, leveraging flow-matching methods at each AR step. This approach conditions training on noisy entities instead of ground truth tokens, leading to Noisy Context Learning, which effectively alleviates exposure bias. As a result, xAR offers two key advantages: (1) it enables flexible prediction units that capture different contextual granularity and spatial structures, and (2) it mitigates exposure bias by avoiding reliance on teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B (172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20$\times$ faster inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24, running 2.2$\times$ faster than the previous best-performing model without relying on vision foundation modules (e.g., DINOv2) or advanced guidance interval sampling.
- Abstract(参考訳): 次世代予測パラダイムで知られる自己回帰(AR)モデリングは、最先端の言語と視覚生成モデルを支える。
伝統的に 'token'' は最小の予測単位として扱われ、しばしば言語における離散的なシンボルや視覚における量子化されたパッチとして扱われる。
しかし、2次元画像構造に対する最適トークン定義は未解決のままである。
さらに、ARモデルは露出バイアスに悩まされ、トレーニング中の教師の強制が推論時にエラーの蓄積につながる。
本稿では、トークンの概念を、個々のパッチトークン、セル(隣接するパッチのグループ化)、サブサンプル(遠隔パッチの非局所的なグループ化)、スケール(粗大な分解能)、さらには全体像を表すことができるエンティティXに拡張する一般化ARフレームワークであるxARを提案する。
さらに,各ARステップにおけるフローマッチング手法を利用して,離散トークン分類を連続的なエンティティ回帰として再構成する。
このアプローチでは、基底真理トークンの代わりにノイズのあるエンティティをトレーニングすることで、ノイズの多いコンテキスト学習を実現し、露光バイアスを効果的に軽減する。
その結果、xARは、(1)異なる文脈の粒度と空間構造を捉える柔軟な予測ユニットを可能にし、(2)教師の強制に頼らずに露出バイアスを緩和する。
ImageNet-256 生成ベンチマークでは,ベースモデル xAR-B (172M) が DiT-XL/SiT-XL (675M) より優れ,20$\times$高速推論を実現している。
一方、xAR-H は FID 1.24 を新たに設定し、ビジョンファンデーションモジュール(例えば DINOv2)や高度なガイダンス間隔サンプリングに頼ることなく、以前の最高のパフォーマンスモデルよりも2.2$\times$高速に動作させる。
関連論文リスト
- Next Patch Prediction for Autoregressive Visual Generation [58.73461205369825]
自動回帰画像生成のためのNPP(Next Patch Prediction)パラダイムを提案する。
私たちのキーとなるアイデアは、画像トークンを高情報密度のパッチトークンにまとめて集約することです。
パッチトークンを短い入力シーケンスとして、自己回帰モデルを訓練して次のパッチを予測することにより、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-12-19T18:59:36Z) - FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z) - RandAR: Decoder-only Autoregressive Visual Generation in Random Orders [54.49937384788739]
RandARはデコーダのみの視覚的自己回帰(AR)モデルで、任意のトークン順序で画像を生成することができる。
我々の設計では、各画像トークンが予測される前に「配置命令トークン」を挿入することで、ランダムな順序付けを可能にする。
RandARはゼロショットでインペイント、アウトペイント、解像度推論をサポートする。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - Sample- and Parameter-Efficient Auto-Regressive Image Models [15.501863812794209]
我々は,新しい自己回帰目標を事前学習した視覚モデルであるXTRAを紹介する。
XTRAはBlock Causal Maskを採用しており、それぞれのBlockは標準的な因果マスクに頼るのではなく、k$times$kトークンを表す。
XTRAはブロック単位でピクセル値を再構築することにより、より大きな画像領域上の高レベルの構造パターンをキャプチャする。
論文 参考訳(メタデータ) (2024-11-23T20:40:46Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Efficient Training of Language Models with Compact and Consistent Next Token Distributions [23.312920633391837]
我々は, コーパスを崩壊した$n$-gramの分布で事前集約することで, より良いモデルをより高速に訓練できることを示す。
我々の近似は、より大きなデータセットやモデルへのゲインのスケーラビリティを促進する。
論文 参考訳(メタデータ) (2024-07-03T05:40:41Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。