論文の概要: Masked Auto-Regressive Variational Acceleration: Fast Inference Makes Practical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.15190v1
- Date: Wed, 19 Nov 2025 07:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.679196
- Title: Masked Auto-Regressive Variational Acceleration: Fast Inference Makes Practical Reinforcement Learning
- Title(参考訳): Masked Auto-Regressive Variational Acceleration: Fast Inferenceによる実践的強化学習
- Authors: Yuxuan Gu, Weimin Bai, Yifei Wang, Weijian Luo, He Sun,
- Abstract要約: マスク付き自己回帰拡散モデル(MAR)は拡散モデルの表現的モデリング能力の恩恵を受ける。
MARVAL(Masked Auto-Regressive Variational Acceleration)は、拡散鎖を1つのAR生成ステップに圧縮する蒸留ベースのフレームワークである。
- 参考スコア(独自算出の注目度): 23.8766303220919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked auto-regressive diffusion models (MAR) benefit from the expressive modeling ability of diffusion models and the flexibility of masked auto-regressive ordering. However, vanilla MAR suffers from slow inference due to its hierarchical inference mechanism: an outer AR unmasking loop and an inner diffusion denoising chain. Such decoupled structure not only harm the generation efficiency but also hinder the practical use of MAR for reinforcement learning (RL), an increasingly critical paradigm for generative model post-training.To address this fundamental issue, we introduce MARVAL (Masked Auto-regressive Variational Acceleration), a distillation-based framework that compresses the diffusion chain into a single AR generation step while preserving the flexible auto-regressive unmasking order. Such a distillation with MARVAL not only yields substantial inference acceleration but, crucially, makes RL post-training with verifiable rewards practical, resulting in scalable yet human-preferred fast generative models. Our contributions are twofold: (1) a novel score-based variational objective for distilling masked auto-regressive diffusion models into a single generation step without sacrificing sample quality; and (2) an efficient RL framework for masked auto-regressive models via MARVAL-RL. On ImageNet 256*256, MARVAL-Huge achieves an FID of 2.00 with more than 30 times speedup compared with MAR-diffusion, and MARVAL-RL yields consistent improvements in CLIP and image-reward scores on ImageNet datasets with entity names. In conclusion, MARVAL demonstrates the first practical path to distillation and RL of masked auto-regressive diffusion models, enabling fast sampling and better preference alignments.
- Abstract(参考訳): マスク付き自己回帰拡散モデル(MAR)は、拡散モデルの表現的モデリング能力とマスク付き自己回帰秩序の柔軟性の恩恵を受ける。
しかし、バニラMARは、その階層的推論機構(外的ARアンマスキングループと内的拡散縮退鎖)により、緩やかな推論に苦しむ。
このような疎結合構造は, 生成効率を損なうだけでなく, 生成モデルポストトレーニングの重要パラダイムである強化学習(RL)へのMARの実践的利用を阻害する。この根本的な問題に対処するために, フレキシブル自己回帰的アンマスク順序を維持しつつ, 拡散鎖を単一のAR生成ステップに圧縮する蒸留ベースのフレームワークであるMARVAL(Masked Auto-Regressive Variational Acceleration)を導入する。
このようなMARVALによる蒸留は、かなりの推論加速をもたらすだけでなく、重要なことに、検証可能な報酬でRLのポストトレーニングを実践し、スケーラブルで人間に好まれる高速な生成モデルをもたらす。
筆者らの貢献は,(1)マスク付き自己回帰拡散モデルを試料品質を犠牲にすることなく単一生成段階に蒸留するための新しいスコアベース変動目標,(2)MARVAL-RLによるマスク付き自己回帰拡散モデルのための効率的なRLフレームワークである。
ImageNet 256*256では、MARVAL-HugeはMAR-diffusionの30倍以上のスピードアップで2.00のFIDを達成した。
結論として、MARVALは、マスク付き自己回帰拡散モデルの蒸留とRLへの最初の実践的経路を示し、高速サンプリングとより良い選好アライメントを可能にする。
関連論文リスト
- SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation [62.14510717860079]
本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-07T17:29:28Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-09T20:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。