論文の概要: AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.06825v1
- Date: Fri, 06 Feb 2026 16:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.47598
- Title: AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models
- Title(参考訳): AEGPO:拡散モデルに対する適応エントロピー誘導政策最適化
- Authors: Yuming Li, Qingyu Li, Chengyu Bai, Xiangyang Luo, Zeyue Xue, Wenyu Qin, Meng Wang, Yikai Wang, Shanghang Zhang,
- Abstract要約: 人間のフィードバックからの強化学習は、拡散とフローモデルの整合性を示す。
GRPOのような政策最適化手法は、非効率で静的なサンプリング戦略に悩まされている。
適応エントロピー誘導政策最適化(Adaptive Entropy-Guided Policy Optimization, AEGPO)を提案する。
- 参考スコア(独自算出の注目度): 54.56296715999545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) shows promise for aligning diffusion and flow models, yet policy optimization methods such as GRPO suffer from inefficient and static sampling strategies. These methods treat all prompts and denoising steps uniformly, ignoring substantial variations in sample learning value as well as the dynamic nature of critical exploration moments. To address this issue, we conduct a detailed analysis of the internal attention dynamics during GRPO training and uncover a key insight: attention entropy can serve as a powerful dual-signal proxy. First, across different samples, the relative change in attention entropy (ΔEntropy), which reflects the divergence between the current policy and the base policy, acts as a robust indicator of sample learning value. Second, during the denoising process, the peaks of absolute attention entropy (Entropy(t)), which quantify attention dispersion, effectively identify critical timesteps where high-value exploration occurs. Building on this observation, we propose Adaptive Entropy-Guided Policy Optimization (AEGPO), a novel dual-signal, dual-level adaptive optimization strategy. At the global level, AEGPO uses ΔEntropy to dynamically allocate rollout budgets, prioritizing prompts with higher learning value. At the local level, it exploits the peaks of Entropy(t) to guide exploration selectively at critical high-dispersion timesteps rather than uniformly across all denoising steps. By focusing computation on the most informative samples and the most critical moments, AEGPO enables more efficient and effective policy optimization. Experiments on text-to-image generation tasks demonstrate that AEGPO significantly accelerates convergence and achieves superior alignment performance compared to standard GRPO variants.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は拡散モデルと流れモデルの整合性を示すが、GRPOのような政策最適化手法は非効率で静的なサンプリング戦略に苦しむ。
これらの手法は全てのプロンプトを均一に処理し、サンプル学習値のかなりの変動や臨界探査モーメントの動的性質を無視する。
この問題に対処するために、GRPOトレーニング中に内部の注意ダイナミクスを詳細に分析し、重要な洞察を明らかにする: 注意エントロピーは強力なデュアルシグナルプロキシとして機能する。
まず,注目エントロピー(Δエントロピー)の相対的変化は,現在の政策と基本方針の相違を反映し,サンプル学習値の頑健な指標として機能する。
第二に, 絶対的注意エントロピー(エントロピー(t))のピークは, 注意分散を定量化し, 高値探索を行う臨界時間ステップを効果的に同定する。
本稿では, 適応エントロピー誘導政策最適化(Adaptive Entropy-Guided Policy Optimization, AEGPO)を提案する。
グローバルレベルでは、AEGPOはΔEntropyを使用してロールアウト予算を動的に割り当て、より高い学習価値でプロンプトを優先順位付けする。
局所レベルでは、エントロピー(t)のピークを利用して、全てのデノナイジングステップを均一に横断するのではなく、重要な高分散時間ステップを選択的に探索する。
最も有益なサンプルと最も重要な瞬間に計算を集中させることで、AEGPOはより効率的で効果的なポリシー最適化を可能にします。
テキスト・画像生成タスクの実験は、AEGPOがコンバージェンスを著しく加速し、標準GRPOの変種に比べて優れたアライメント性能を達成することを示した。
関連論文リスト
- The Role of Entropy in Visual Grounding: Analysis and Optimization [69.51909526456606]
本稿では,効率的なエントロピー制御のための解釈可能なアルゴリズムであるECVGPO(Entropy Control Visual Grounding Policy Optimization)を紹介する。
実験によると、ECVGPOは様々なベンチマークやモデルで広範囲に改善されている。
論文 参考訳(メタデータ) (2025-12-07T08:33:55Z) - ESPO: Entropy Importance Sampling Policy Optimization [7.2000276975120014]
エントロピー重要度サンプリングポリシー最適化は、きめ細かい制御とトレーニングの安定性を調整します。
ESPOは予測エントロピーに基づいて配列をグループに分解する。
数学的推論ベンチマークの実験は、ESPOが収束と最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-11-29T14:09:38Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Understanding the Impact of Sampling Quality in Direct Preference Optimization [4.122673728216191]
我々は、DPO(Direct Preference Optimization)において、より高い品質のデータをどのように活用してパフォーマンスを向上させるかを検討する。
解析の結果、DPOの解空間と収束挙動は、データ生成分布の支持と品質に依存することがわかった。
論文 参考訳(メタデータ) (2025-06-03T18:12:40Z) - Evolutionary Policy Optimization [47.30139909878251]
オンライン強化学習(RL)アルゴリズムは、高いパフォーマンスとトレーニング安定性のために広く利用されているが、より大きなバッチサイズでスケールするのに苦労している。
本稿では、EAのスケーラビリティと多様性と、政策勾配の性能と安定性を組み合わせたハイブリッドである進化的政策最適化(EPO)を提案する。
論文 参考訳(メタデータ) (2025-03-24T18:08:54Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。