論文の概要: Learning Discrete Autoregressive Priors with Wasserstein Gradient Flow
- arxiv url: http://arxiv.org/abs/2605.06148v1
- Date: Thu, 07 May 2026 12:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.782806
- Title: Learning Discrete Autoregressive Priors with Wasserstein Gradient Flow
- Title(参考訳): Wasserstein Gradient Flowを用いた離散自己回帰前処理の学習
- Authors: Bowen Zheng, Yihong Luo, Tianyang Hu,
- Abstract要約: 離散画像トークン化器は、まず再構成用、次に凍結トークンシーケンスに適合した事前モデルという2つの段階で訓練される。
我々はこのミスマッチを,潜時変分学習を3つの整合条件に分解する三部変分整合(TVC)を用いて解析する。
我々はこの信号をWasserstein-gradient-flow updateで最適化する。
- 参考スコア(独自算出の注目度): 17.114307498606724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete image tokenizers are commonly trained in two stages: first for reconstruction, and then with a prior model fitted to the frozen token sequences. This decoupling leaves the tokenizer unaware of the model that will later generate its tokens. As a result, the learned tokens may preserve image information well but still be difficult for an autoregressive (AR) prior to predict from left to right. We analyze this mismatch using Tripartite Variational Consistency (TVC), which decomposes latent-variable learning into three consistency conditions: conditional-likelihood consistency, prior consistency, and posterior consistency. TVC shows that two-stage training preserves the reconstruction side but leaves prior consistency outside the tokenizer objective: the overall token distribution is fixed before the AR prior participates in training. Motivated by this view, we add a distribution-level prior-matching signal during tokenizer training, while keeping the reconstruction objective unchanged. We optimize this signal with a Wasserstein-gradient-flow update. For hard categorical tokens, the update reduces to a token-level contrast between an auxiliary AR model that tracks the tokenizer's current token distribution and the target AR prior. It requires only forward passes through the two AR models and does not backpropagate through either of them. The resulting tokenizer, wAR-Tok, reduces AR loss and improves generation FID on CIFAR-10 and ImageNet at comparable reconstruction quality.
- Abstract(参考訳): 離散画像トークン化器は、まず再構成用、次に凍結トークンシーケンスに適合した事前モデルという2つの段階で訓練される。
この分離は、後にトークンを生成するモデルに気付いていない。
結果として、学習したトークンは画像情報をよく保存するが、左から右に予測する前に自己回帰(AR)するのは難しい。
このミスマッチをTripartite Variational Consistency (TVC) を用いて解析し,潜在変数学習を条件的類似性,事前整合性,後続整合性という3つの整合性条件に分解する。
TVCは、2段階のトレーニングは再建側を保存するが、トークン化ツールの目標の外に事前の一貫性を残している。
この視点により, トークン化学習中に, 再構成目標を一定に保ちながら, 分布レベルの事前マッチング信号を追加する。
我々はこの信号をWasserstein-gradient-flow updateで最適化する。
ハードカテゴリトークンでは、トークン発行者の現在のトークン分布とターゲットAR事前を追跡する補助的ARモデルとのトークンレベルのコントラストが削減される。
フォワードパスは2つのARモデルを通してのみ必要であり、どちらのモデルもバックプロパゲートしない。
結果のトークンであるwAR-Tokは、AR損失を低減し、CIFAR-10およびImageNet上の生成FIDを同等の再構築品質で改善する。
関連論文リスト
- Let Triggers Control: Frequency-Aware Dropout for Effective Token Control [8.72880783870241]
我々は新しいパラメータを追加することなく制御性を改善するために周波数対応ドロップアウト(FAD)を提案する。
FADは、共起分析とカリキュラムにインスパイアされたスケジューリングの2つの重要なコンポーネントで構成されている。
本手法は,テキスト・ツー・イメージ生成における制御性とパーソナライズを向上する,シンプルで効果的なドロップアウト戦略を提供する。
論文 参考訳(メタデータ) (2026-03-28T08:55:54Z) - CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization [122.88484422855934]
本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
論文 参考訳(メタデータ) (2026-03-06T16:39:17Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。