論文の概要: MaskFocus: Focusing Policy Optimization on Critical Steps for Masked Image Generation
- arxiv url: http://arxiv.org/abs/2512.18766v1
- Date: Sun, 21 Dec 2025 15:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.494181
- Title: MaskFocus: Focusing Policy Optimization on Critical Steps for Masked Image Generation
- Title(参考訳): MaskFocus: マスク画像生成のクリティカルステップにおけるポリシー最適化
- Authors: Guohui Zhang, Hu Yu, Xiaoxiao Ma, Yaning Pan, Hang Xu, Feng Zhao,
- Abstract要約: マスク生成モデルに対する効果的なポリシー最適化を実現する新しいRLフレームワークであるMaskFocusを提案する。
具体的には、各サンプリングステップにおける中間画像と最終生成画像との類似度を測定することにより、ステップレベルの情報ゲインを決定する。
これを活用して、最も重要で価値のあるステップを特定し、それに焦点を当てたポリシー最適化を実行します。
- 参考スコア(独自算出の注目度): 21.160947261963088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has demonstrated significant potential for post-training language models and autoregressive visual generative models, but adapting RL to masked generative models remains challenging. The core factor is that policy optimization requires accounting for the probability likelihood of each step due to its multi-step and iterative refinement process. This reliance on entire sampling trajectories introduces high computational cost, whereas natively optimizing random steps often yields suboptimal results. In this paper, we present MaskFocus, a novel RL framework that achieves effective policy optimization for masked generative models by focusing on critical steps. Specifically, we determine the step-level information gain by measuring the similarity between the intermediate images at each sampling step and the final generated image. Crucially, we leverage this to identify the most critical and valuable steps and execute focused policy optimization on them. Furthermore, we design a dynamic routing sampling mechanism based on entropy to encourage the model to explore more valuable masking strategies for samples with low entropy. Extensive experiments on multiple Text-to-Image benchmarks validate the effectiveness of our method.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 学習後の言語モデルや自己回帰型視覚生成モデルに有意な可能性を証明しているが, マスク付き生成モデルにRLを適用することは依然として困難である。
鍵となる要因は、ポリシー最適化が、その多段階かつ反復的な改善プロセスのために、各ステップの確率を考慮しなければならないことである。
このサンプリング軌道全体への依存は高い計算コストをもたらすが、ランダムステップをネイティブに最適化すると、しばしば準最適結果が得られる。
本稿では,重要なステップに着目し,マスマスキング生成モデルに対する効果的なポリシー最適化を実現する新しいRLフレームワークMaskFocusを提案する。
具体的には、各サンプリングステップにおける中間画像と最終生成画像との類似度を測定することにより、ステップレベルの情報ゲインを決定する。
重要なことに、私たちはこれを活用して、最も重要で価値のあるステップを特定し、それらに焦点を当てたポリシー最適化を実行します。
さらに,エントロピーに基づく動的ルーティングサンプリング機構を設計し,エントロピーの低いサンプルに対して,より価値の高いマスキング戦略を探索する。
複数のテキスト・画像・ベンチマークの大規模な実験により,本手法の有効性が検証された。
関連論文リスト
- Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models [40.82263997290613]
離散拡散においてスケーラブルなマルチモーダル強化学習を実現するための,最初の実行可能なアプローチであるMaskGRPOを紹介する。
MaskGRPOはより安定的で効率的なアップデートをもたらし、推論性能が向上し、世代品質が向上する。
論文 参考訳(メタデータ) (2025-10-03T10:36:24Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Domain Adaptation of LLMs for Process Data [7.611051482274626]
大規模言語モデル(LLM)は,プロセスマイニング(PM)など,さまざまな研究領域において注目の的となっている。
本研究では,事前学習したLLMの自然言語再構成なしでの処理データへの直接適応について検討した。
より具体的には、パラメータ効率のよい微調整技術に注目し、そのようなモデルに典型的に関連する計算オーバーヘッドを軽減する。
論文 参考訳(メタデータ) (2025-09-03T09:21:35Z) - Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.1510009152620668]
強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。
RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2025-05-29T10:45:38Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Bellman Optimal Stepsize Straightening of Flow-Matching Models [14.920260435839992]
本稿では,フローマッチング生成モデルを蒸留するためのBellman Optimal Stepsize Straightening (BOSS)技術を紹介する。
BOSSは特に、計算予算の制約に固執しながら、数ステップの効率的な画像サンプリングを目的としている。
以上の結果から,BOSSは競争力のあるサンプル品質を維持しつつ,効率の大幅な向上を実現していることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-27T05:20:20Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。