論文の概要: Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.16842v1
- Date: Sat, 16 May 2026 06:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.196353
- Title: Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models
- Title(参考訳): Sketch Then Paint: 拡散多モード大言語モデルのための階層的強化学習
- Authors: Siqi Luo, Jianghan Shen, Yi Xin, Huayu Zheng, Haoxing Chen, Yan Tai, Yue Li, Junjun He, Yihao Liu, Guangtao Zhai, Yuewen Cao, Xiaohong Liu,
- Abstract要約: 強化学習(RL)を通して拡散多モード大言語モデル(dMLLM)を最適化する方法を示す。
弊社のアプローチでは、Sketch-Then-Paintトレーニングスキームにより、アップデートをグローバル、構造、洗練の3つのステージに編成する。
MMaDAとLumina-DiMOOの2つの人気のあるdMLLMバックボーンを用いた実験は、GenEvalとDPGのベンチマークで大幅に向上した。
- 参考スコア(独自算出の注目度): 52.40742159500277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Multi-Modal Large Language Models (dMLLMs) are powerful for image generation, but optimizing them through reinforcement learning (RL) remains a major challenge. One primary difficulty is that a single image can be generated through many different unmasking sequences, which makes calculating importance ratios often intractable. Additionally, existing methods tend to ignore the hierarchical generation process of dMLLMs, where early tokens define the global layout and later tokens focus on local details. By assigning uniform rewards to all tokens, these current methods fail to reflect the actual contribution of each token to the final image. To address these issues, we propose Hierarchical Token GRPO (HT-GRPO), which integrates this hierarchy directly into the policy optimization process. Our approach features a Sketch-Then-Paint training scheme that organizes updates into three distinct stages: global, structure, and refinement. We also use a prompt-conditioned estimator to calculate importance ratios starting from a fully masked state. Furthermore, we introduce a Hierarchical Credit Assignment mechanism that prioritizes key structural tokens to ensure accurate reward propagation. Experiments using two popular dMLLM backbones, MMaDA and Lumina-DiMOO, demonstrate that HT-GRPO achieves substantial gains on the GenEval and DPG benchmarks. Evaluations across six additional metrics confirm significant improvements in image quality, aesthetics, and human preference.
- Abstract(参考訳): 拡散多モード大言語モデル(dMLLM)は画像生成には強力だが、強化学習(RL)による最適化は依然として大きな課題である。
主な難点は、多くの異なるアンマスキングシーケンスを通して単一の画像を生成することができ、計算の重要度がしばしば引き起こされることである。
さらに、既存のメソッドはdMLLMの階層的生成プロセスを無視する傾向があり、初期トークンはグローバルなレイアウトを定義し、後にトークンは局所的な詳細に集中する。
すべてのトークンに均一な報酬を割り当てることによって、これらの現在のメソッドは、最終的なイメージに対する各トークンの実際の貢献を反映できない。
これらの問題に対処するため,我々は階層型トークンGRPO (HT-GRPO) を提案し,この階層を政策最適化プロセスに直接統合する。
弊社のアプローチでは、Sketch-Then-Paintトレーニングスキームにより、アップデートをグローバル、構造、洗練の3つのステージに編成する。
また、プロンプト条件付き推定器を用いて、完全にマスキングされた状態から始まる重要度を算出する。
さらに、重要な構造トークンを優先し、正確な報酬伝達を保証する階層的信用割当機構を導入する。
MMaDAとLumina-DiMOOの2つの人気のあるdMLLMバックボーンを用いた実験は、HT-GRPOがGenEvalとDPGベンチマークでかなりの利益を得ることを示した。
6つの追加指標による評価は、画像の品質、美学、人間の嗜好の大幅な改善を裏付ける。
関連論文リスト
- SketchVL: Policy Optimization via Fine-Grained Credit Assignment for Chart Understanding and More [15.102512433806751]
我々はFinePOを最適化した新しいMLLMであるSketchVLを紹介した。
トレーニング中、FinePOアルゴリズムは細粒度プロセスリワードモデル(FinePRM)を利用して、各描画動作を軌道内でスコアし、各ステップのクレジットを正確に割り当てる。
実験の結果、SketchVLはFinPRMとステップレベルの動作を一致させることを学び、ベースモデルよりも平均7.23%の性能向上を達成した。
論文 参考訳(メタデータ) (2026-01-09T10:13:01Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots [103.48424042986271]
本稿では,いくつかの低解像度画像トークンから一般的な高密度画像トークンへの階層構造をモデル化する,新しい自己回帰設計を提案する。
階層型自己回帰モデル(Hi-MAR)を提案する。
論文 参考訳(メタデータ) (2025-05-26T17:59:07Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - MMRL: Multi-Modal Representation Learning for Vision-Language Models [4.828668077793944]
MMRL(Multi-Modal Representation Learning)は、共有、学習可能、モダリティに依存しない表現空間を導入するフレームワークである。
MMRLはスペーストークンをテキストと画像表現トークンに投影し、より効果的なマルチモーダルインタラクションを促進する。
15のデータセットにわたる実験では、MRLが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-03-11T14:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。