論文の概要: From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2604.02355v1
- Date: Thu, 12 Mar 2026 12:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.516228
- Title: From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation
- Title(参考訳): 広帯域探索から安定合成へ:自己回帰画像生成のためのエントロピー誘導最適化
- Authors: Han Song, Yucheng Zhou, Jianbing Shen, Yu Cheng,
- Abstract要約: Reinforcement Learning (RL) によるChain-of-Thought (CoT) は、テキスト・ツー・イメージ(T2I) の生成を改善する。
本稿では,3つの重要な洞察をもたらすエントロピーに基づく系統的分析について述べる。
本稿では,不確実性により最適化予算を再配置する微調整戦略であるエントロピー誘導グループ相対政策最適化(EG-GRPO)を提案する。
- 参考スコア(独自算出の注目度): 53.759125791348396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining Chain-of-Thought (CoT) with Reinforcement Learning (RL) improves text-to-image (T2I) generation, yet the underlying interaction between CoT's exploration and RL's optimization remains unclear. We present a systematic entropy-based analysis that yields three key insights: (1) CoT expands the generative exploration space, while RL contracts it toward high-reward regions; (2) final reward is strongly negatively correlated with both the mean and variance of image-token entropy, highlighting the need to reduce uncertainty and instability; and (3) the entropy of the textual CoT directly governs downstream image quality, with lower-entropy CoTs leading to better generations. Motivated by these findings, we propose Entropy-Guided Group Relative Policy Optimization (EG-GRPO), a fine-tuning strategy that reallocates optimization budget by uncertainty: low-entropy tokens are excluded from reward-driven updates to preserve stability, while high-entropy tokens receive an entropy bonus that encourages structured exploration without collapse. Experiments on standard T2I benchmarks demonstrate that EG-GRPO achieves state-of-the-art performance.
- Abstract(参考訳): CoT(Chain-of-Thought)と強化学習(Reinforcement Learning, RL)を組み合わせることで、テキスト・ツー・イメージ(T2I)生成が改善されるが、CoTの探索とRLの最適化の基本的な相互作用は明確ではない。
我々は,(1) CoTは生成的探索空間を拡大し,(2) RLは高逆領域に縮小する,(2) 最終報酬は画像のエントロピーの平均と分散の両方に負の相関を保ち,不確実性と不安定性を低減させる,(3) テキストCoTのエントロピーは下流画像の画質を直接支配し,低エントロピーCoTはより良い世代に繋がる,という3つの重要な洞察を与える。
これらの結果から,低エントロピートークンは報酬駆動型更新から除外され,高エントロピートークンはエントロピーボーナスを受け,崩壊することなく構造的探索を促進する。
標準的なT2Iベンチマークの実験は、EG-GRPOが最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Mind Your Entropy: From Maximum Entropy to Trajectory Entropy-Constrained RL [56.085103402298905]
本稿では,この2つの課題に対処する軌道エントロピー制約強化学習(TECRL)フレームワークを提案する。
このフレームワーク内では、まず報酬とエントロピーに関連する2つのQ-関数を個別に学習し、温度更新の影響を受けないクリーンで安定した値ターゲットを確保する。
我々は,3つの改良を加えて,最先端の分散型ソフトアクター批判を拡張して,現実的な非政治的アルゴリズムDSAC-Eを開発した。
論文 参考訳(メタデータ) (2025-10-25T09:17:47Z) - Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Fine-tuning [36.00460460149206]
本稿では, エントロピーボーナスをREINFORCEポリシー勾配に置き換えることで, エントロピー崩壊を解消するArbitrary Entropy Policy Optimization (AEPO)を提案する。
AEPOは、ポリシー勾配を正規化として、分布を正規化として、REINFORCEを正規化として統合し、最適化を歪ませることなく正確なエントロピー制御を可能にする。
論文 参考訳(メタデータ) (2025-10-09T12:24:08Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT [73.10972809774039]
本稿では,強化学習を利用した新たな推論型テキスト・画像生成モデルであるT2I-R1を提案する。
ベースラインモデルであるJanus-Proに推論戦略を適用することで、T2I-CompBenchを13%改善し、WISEベンチマークを19%改善し、優れた性能を実現した。
論文 参考訳(メタデータ) (2025-05-01T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。