論文の概要: VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2601.02256v1
- Date: Mon, 05 Jan 2026 16:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.280473
- Title: VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
- Title(参考訳): VAR RLが正しい:視覚的自己回帰生成における非同期ポリシー競合に対処する
- Authors: Shikun Sun, Liao Qu, Huichao Zhang, Yiheng Liu, Yangyang Song, Xian Li, Xu Wang, Yi Jiang, Daniel K. Du, Xinglong Wu, Jia Jia,
- Abstract要約: ビジュアル生成はAutoRegressive(AR)、拡散、Visual AutoRegressive(VAR)の3つのパラダイムで支配されている。
ARや拡散とは異なり、VARは生成ステップをまたいだ異種入力構造で動作し、厳しい非同期ポリシーの衝突を引き起こす。
本稿では,これらの対立を明示的に管理することで,グループ相対政策最適化(GRPO)を強化する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 31.201343197395573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.
- Abstract(参考訳): ビジュアル生成はAutoRegressive(AR)、拡散、Visual AutoRegressive(VAR)の3つのパラダイムで支配されている。
ARや拡散とは異なり、VARは生成ステップをまたいだ異種入力構造で動作し、厳しい非同期ポリシーの衝突を引き起こす。
この問題は特に強化学習(RL)のシナリオで急激になり、不安定なトレーニングと準最適アライメントにつながる。
そこで我々は,これらの対立を明示的に管理し,グループ相対政策最適化(GRPO)を強化する新しい枠組みを提案する。
本手法は3つの相乗的成分を統合する。
1) 早期世代を導くための安定化中間報酬
2 正確な信用割当のための動的時間ステップ再重み付け方式及び
3)Reward Feedback Learning(ReFL)の原理を基礎として,空間的・時間的に最適化効果を分離する新しいマスク伝搬アルゴリズムを提案する。
提案手法は,バニラGRPOベースラインに対するサンプル品質と客観的アライメントの大幅な向上を示し,VARモデルの堅牢かつ効果的な最適化を実現する。
関連論文リスト
- Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Resolving Conflicts in Lifelong Learning via Aligning Updates in Subspaces [12.630494786258842]
Low-Rank Adaptation (LoRA)は効果的な継続的学習を可能にするが、しばしば破滅的な忘れ込みに悩まされる。
そこで我々は,PS-LoRAを提案する。PS-LoRAは最適化サブ空間内で更新を調整することで競合を解決するためのフレームワークである。
提案手法では,先行知識との整合性を確保するために,矛盾する方向と大小偏差をペナルティ化する二重正則化手法を用いている。
論文 参考訳(メタデータ) (2025-11-28T15:34:36Z) - Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。
CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。
拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文 参考訳(メタデータ) (2025-11-26T09:49:48Z) - Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.1510009152620668]
強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。
RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2025-05-29T10:45:38Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Adaptive Multi-Fidelity Reinforcement Learning for Variance Reduction in Engineering Design Optimization [0.0]
多要素強化学習(Multi-fidelity Reinforcement Learning, RL)フレームワークは、様々な精度とコストの分析モデルを統合することにより、計算資源を効率的に活用する。
本研究では,複数の不均一な非階層的低忠実度モデルを高忠実度モデルとともに動的に活用する適応型多忠実RLフレームワークを提案する。
提案手法の有効性はオクトコプター設計最適化問題において実証され,2つの低忠実度モデルと高忠実度シミュレータを用いた。
論文 参考訳(メタデータ) (2025-03-23T22:29:08Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Adjustable Robust Reinforcement Learning for Online 3D Bin Packing [11.157035538606968]
現在のオンライン3D-BPPの深層強化学習方法は、いくつかの最悪のシナリオが実現可能な実世界の環境では失敗する。
本研究では,ロバストネス重みの効率的な調整が可能なロバスト強化学習フレームワークを提案する。
実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。
論文 参考訳(メタデータ) (2023-10-06T15:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。