論文の概要: MixAR: Mixture Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2511.12181v1
- Date: Sat, 15 Nov 2025 12:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.660475
- Title: MixAR: Mixture Autoregressive Image Generation
- Title(参考訳): MixAR: 混合自己回帰画像生成
- Authors: Jinyuan Hu, Jiayou Zhang, Shaobo Cui, Kun Zhang, Guangyi Chen,
- Abstract要約: 連続的自己回帰モデリングのための事前ガイダンスとして離散トークンを注入する新しいフレームワークであるMixARを紹介する。
本稿では、自己注意(DC-SA)、クロスアテンション(DC-CA)、均一なマスクトークンを情報的な個別のトークンに置き換える単純なアプローチ(DC-Mix)など、いくつかの離散連続混合戦略について検討する。
- 参考スコア(独自算出の注目度): 12.846100277592969
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Autoregressive (AR) approaches, which represent images as sequences of discrete tokens from a finite codebook, have achieved remarkable success in image generation. However, the quantization process and the limited codebook size inevitably discard fine-grained information, placing bottlenecks on fidelity. Motivated by this limitation, recent studies have explored autoregressive modeling in continuous latent spaces, which offers higher generation quality. Yet, unlike discrete tokens constrained by a fixed codebook, continuous representations lie in a vast and unstructured space, posing significant challenges for efficient autoregressive modeling. To address these challenges, we introduce MixAR, a novel framework that leverages mixture training paradigms to inject discrete tokens as prior guidance for continuous AR modeling. MixAR is a factorized formulation that leverages discrete tokens as prior guidance for continuous autoregressive prediction. We investigate several discrete-continuous mixture strategies, including self-attention (DC-SA), cross-attention (DC-CA), and a simple approach (DC-Mix) that replaces homogeneous mask tokens with informative discrete counterparts. Moreover, to bridge the gap between ground-truth training tokens and inference tokens produced by the pre-trained AR model, we propose Training-Inference Mixture (TI-Mix) to achieve consistent training and generation distributions. In our experiments, we demonstrate a favorable balance of the DC-Mix strategy between computational efficiency and generation fidelity, and consistent improvement of TI-Mix.
- Abstract(参考訳): イメージを有限のコードブックから離散トークンのシーケンスとして表現する自己回帰(AR)アプローチは、画像生成において顕著な成功を収めた。
しかし、量子化プロセスと制限されたコードブックサイズは、必然的に微細な情報を破棄し、ファシリティにボトルネックを置く。
この制限によって動機づけられた最近の研究は、より高い世代品質を提供する連続潜在空間における自己回帰モデリングを探求している。
しかし、固定されたコードブックで制約された離散トークンとは異なり、連続表現は広大な非構造空間にあり、効率的な自己回帰モデリングにおいて重要な課題を提起する。
これらの課題に対処するために、混合トレーニングパラダイムを活用して離散トークンを注入する新しいフレームワークであるMixARを、継続的ARモデリングの事前ガイダンスとして紹介する。
MixARは、離散トークンを連続的な自己回帰予測の事前ガイダンスとして活用する分解式である。
本稿では、自己注意(DC-SA)、クロスアテンション(DC-CA)、均一なマスクトークンを情報的な個別のトークンに置き換える単純なアプローチ(DC-Mix)など、いくつかの離散連続混合戦略について検討する。
さらに,事前学習されたARモデルによって生成される地上訓練トークンと推論トークンのギャップを埋めるために,一貫したトレーニングおよび生成分布を達成するためのトレーニング-推論混合(TI-Mix)を提案する。
本実験では, 計算効率と生成忠実度とのDC-Mix戦略の良好なバランスと, TI-Mixの一貫した改善を示す。
関連論文リスト
- Image Tokenizer Needs Post-Training [76.91832192778732]
本稿では,遅延空間構築と復号化に着目した新しいトークン化学習手法を提案する。
具体的には,トークン化の堅牢性を大幅に向上させる,プラグアンドプレイ型トークン化学習手法を提案する。
生成したトークンと再構成されたトークンの分布差を軽減するために、よく訓練された生成モデルに関するトークン化デコーダをさらに最適化する。
論文 参考訳(メタデータ) (2025-09-15T21:38:03Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Unifying Autoregressive and Diffusion-Based Sequence Generation [3.1853022872760186]
拡散に基づくシーケンス生成モデルに対して,自己回帰型言語モデルで行を曖昧にする重要な拡張を提示する。
個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。
第二に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文 参考訳(メタデータ) (2025-04-08T20:32:10Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。