論文の概要: Embedding-perturbed Exploration Preference Optimization for Flow Models
- arxiv url: http://arxiv.org/abs/2605.15803v1
- Date: Fri, 15 May 2026 09:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.246209
- Title: Embedding-perturbed Exploration Preference Optimization for Flow Models
- Title(参考訳): 流れモデルに対する埋め込み摂動探索推定最適化
- Authors: Sujie Hu, Chubin Chen, Jiashu Zhu, Jiahong Wu, Xiangxiang Chu, Xiu Li,
- Abstract要約: 本稿では,埋め込みレベルの摂動による最適化を実現する新しいフレームワークを提案する。
提案手法は, 試料群内における構造的, 埋め込みレベルの摂動を導入し, 安定な分散を保証している。
我々のアプローチは最先端のベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 23.146684617048674
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements have established Reinforcement Learning (RL) as a pivotal paradigm for aligning generative models with human intent. However, group-based optimization frameworks (e.g., GRPO) face a critical limitation: the rapid decay of intra-group variance. As the distinctiveness among samples within a group diminishes, the variance approaches zero. This eliminates the very learning signal required for optimization, rendering the process unstable and forcing the policy into premature stagnation or reward hacking. Existing strategies, such as varying the initial noise or increasing group sizes, often fail to address this fundamental issue, resulting in training instability or diminishing returns. To overcome these challenges, we propose $\textbf{Embedding-perturbed Exploration Preference Optimization (}E^2\textbf{PO)}$, a novel framework that sustains optimization through embedding-level perturbation. Our method introduces structured, embedding-level perturbations within sample groups, guaranteeing a robust variance that preserves the discriminative signal throughout the training process. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art baselines, achieving a more faithful alignment with human preference.
- Abstract(参考訳): 近年の強化学習(Reinforcement Learning, RL)は、生成モデルと人間の意図を整合させる重要なパラダイムとして確立されている。
しかし、グループベースの最適化フレームワーク(例えばGRPO)は、グループ内分散の急激な崩壊という限界に直面している。
群内のサンプルの特異性が減少するにつれて、分散はゼロに近づく。
これにより、最適化に必要な学習シグナルを排除し、プロセスを不安定にし、ポリシーを早期の停滞または報奨ハックに強制する。
初期ノイズの変化やグループサイズの増加といった既存の戦略は、この根本的な問題に対処できず、トレーニングの不安定性やリターンの低下をもたらす。
これらの課題を克服するために、埋め込みレベルの摂動を通じて最適化を維持する新しいフレームワークである$\textbf{Embedding-perturbed Exploration Preference Optimization (}E^2\textbf{PO)}$を提案する。
提案手法では, サンプル群内における構造的, 埋め込みレベルの摂動を導入し, 学習過程を通じて識別信号を保持する頑健な分散を保証している。
大規模な実験により、我々のアプローチは最先端のベースラインを著しく上回り、人間の好みに忠実に一致していることが示された。
関連論文リスト
- Anomaly-Preference Image Generation [41.96735569500412]
本稿では,Anomaly Preference Optimizationを導入する。Anomaly Preference Optimizationは,Anomaly Generationを優先学習問題として再構成する新しいパラダイムである。
我々は,本手法が既存のベースラインを著しく上回り,現実主義と多様性の両面で最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2026-05-04T10:37:09Z) - V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think [90.69263509098948]
本稿では,ELBOをベースとしたサロゲートとグループ相対ポリシー最適化アルゴリズムを統合した変分GRPOを提案する。
V-GRPOはテキストと画像の合成において最先端のパフォーマンスを実現し、MixGRPOよりも2倍のスピードアップ、DiffusionNFTより3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-04-25T17:03:21Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Evolution of Optimization Methods: Algorithms, Scenarios, and Evaluations [98.44542103979735]
勾配勾配降下法(SGD)とアダム(Adam)による1次勾配勾配降下法は、現代の訓練パイプラインの基礎となる。
大規模モデルトレーニング、厳格なプライバシ要件、分散学習パラダイムは、プライバシ保護とメモリ効率に関する従来のアプローチにおける重要な制限を明らかにする。
深層学習最適化アルゴリズムの進化軌道を振り返って分析し、様々なモデルアーキテクチャやトレーニングシナリオの主流を包括的に評価する。
我々は、重要な新興トレンドと基本設計のトレードオフを抽出し、将来の研究の有望な方向性を示唆する。
論文 参考訳(メタデータ) (2026-04-14T17:01:36Z) - Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - CART-based Synthetic Tabular Data Generation for Imbalanced Regression [1.342834401139078]
我々は、既存のCARTベースの合成データ生成手法を適応させ、不均衡回帰に適合させることを提案する。
本手法は, 対象空間のスパース領域におけるサンプリングを誘導するための関連性および密度に基づくメカニズムを統合する。
本実験は,ベンチマークデータセット間での極端目標値の予測に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-03T12:42:20Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。