論文の概要: VA-$π$: Variational Policy Alignment for Pixel-Aware Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2512.19680v1
- Date: Mon, 22 Dec 2025 18:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.88952
- Title: VA-$π$: Variational Policy Alignment for Pixel-Aware Autoregressive Generation
- Title(参考訳): VA-$π$: 画素対応自己回帰生成のための変分ポリシーアライメント
- Authors: Xinyao Liao, Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao,
- Abstract要約: VA-$は自動回帰視覚生成を最適化するポストトレーニングフレームワークである。
ピクセル再構成と自己回帰モデリングを統一する。
FIDを14.36から7.65に削減し、ISをLlamaGen-XXLで86.55から116.70に改善する。
- 参考スコア(独自算出の注目度): 65.22452273252428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) visual generation relies on tokenizers to map images to and from discrete sequences. However, tokenizers are trained to reconstruct clean images from ground-truth tokens, while AR generators are optimized only for token likelihood. This misalignment leads to generated token sequences that may decode into low-quality images, without direct supervision from the pixel space. We propose VA-$π$, a lightweight post-training framework that directly optimizes AR models with a principled pixel-space objective. VA-$π$ formulates the generator-tokenizer alignment as a variational optimization, deriving an evidence lower bound (ELBO) that unifies pixel reconstruction and autoregressive modeling. To optimize under the discrete token space, VA-$π$ introduces a reinforcement-based alignment strategy that treats the AR generator as a policy, uses pixel-space reconstruction quality as its intrinsic reward. The reward is measured by how well the predicted token sequences can reconstruct the original image under teacher forcing, giving the model direct pixel-level guidance without expensive free-running sampling. The regularization term of the ELBO serves as a natural regularizer, maintaining distributional consistency of tokens. VA-$π$ enables rapid adaptation of existing AR generators, without neither tokenizer retraining nor external reward models. With only 1% ImageNet-1K data and 25 minutes of tuning, it reduces FID from 14.36 to 7.65 and improves IS from 86.55 to 116.70 on LlamaGen-XXL, while also yielding notable gains in the text-to-image task on GenEval for both visual generation model (LlamaGen: from 0.306 to 0.339) and unified multi-modal model (Janus-Pro: from 0.725 to 0.744). Code is available at https://github.com/Lil-Shake/VA-Pi.
- Abstract(参考訳): 自己回帰(AR)視覚生成は、画像から離散シーケンスをマッピングするトークン化器に依存している。
しかし、トークンライザは、地上の真真正なトークンからクリーンなイメージを再構築するように訓練され、一方ARジェネレータはトークンの可能性のためにのみ最適化されている。
このミスアライメントによって生成されたトークンシーケンスは、ピクセル空間からの直接の監督なしに、低品質の画像にデコードされる可能性がある。
本稿では,基本画素空間を目標としたARモデルを直接最適化する軽量なポストトレーニングフレームワークVA-$π$を提案する。
VA-$π$は、画素再構成と自己回帰モデリングを統一するエビデンスローバウンド(ELBO)を導出した変分最適化としてジェネレータ-トケナイザーアライメントを定式化する。
離散トークン空間の下で最適化するために、VA-$π$はARジェネレータをポリシーとして扱う強化ベースのアライメント戦略を導入する。
報奨は、予測されたトークンシーケンスが教師の強制の下で元のイメージをいかにうまく再構築できるかによって測定され、高価なフリーランサンプリングなしで、モデルに直接ピクセルレベルのガイダンスを与える。
ELBOの正則化項は自然な正則化として機能し、トークンの分布整合性を維持する。
VA-$π$は既存のARジェネレータの迅速な適応を可能にする。
1%のImageNet-1Kデータと25分間のチューニングで、FIDを14.36から7.65に減らし、ISを86.55から116.70に改善し、また、GenEval上のビジュアル生成モデル(LlamaGen:0.306から0.339)と統一マルチモーダルモデル(Janus-Pro:0.725から0.744まで)のテキスト・トゥ・イメージタスクにおいて顕著な利益を得た。
コードはhttps://github.com/Lil-Shake/VA-Piで入手できる。
関連論文リスト
- REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - Group Critical-token Policy Optimization for Autoregressive Image Generation [32.472222192052044]
主な障害は、AR生成中によりクリティカルな画像トークンを識別し、それらに対して効果的なトークンワイズ最適化を実装する方法にある。
具体的には、3つの観点からRLVRベースのAR生成における重要なトークンを識別する: $textbf(1)$ CausalDepend: 初期トークンは、一方向依存性による後のトークンと最終的な画像効果を根本的に決定する。
ARモデルと統合マルチモーダルモデルのための複数のテキスト・画像ベンチマーク実験は、その効果を実証する。
論文 参考訳(メタデータ) (2025-09-26T15:33:18Z) - Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。
偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。
本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文 参考訳(メタデータ) (2025-07-02T08:29:18Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - ZipAR: Parallel Auto-regressive Image Generation through Spatial Locality [19.486745219466666]
ZipARは、自動回帰(AR)ビジュアル生成のためのトレーニング不要でプラグ&プレイの並列デコーディングフレームワークである。
ZipARは、追加の再トレーニングを必要とせずに、Emu3-Genモデルでモデル転送回数を最大91%削減できる。
論文 参考訳(メタデータ) (2024-12-05T10:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。