Fugu-MT 論文翻訳(概要): Depth over Fidelity in Fixed-Budget Noisy Evolution Strategies

論文の概要: Depth over Fidelity in Fixed-Budget Noisy Evolution Strategies

arxiv url: http://arxiv.org/abs/2606.06555v1
Date: Thu, 04 Jun 2026 10:35:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.368421
Title: Depth over Fidelity in Fixed-Budget Noisy Evolution Strategies
Title（参考訳）: 固定予算騒音の進化戦略における忠実度に関する深さ
Authors: Sichen Wang, Zhipeng Lu,
Abstract要約: 我々は、忠実度について深い議論をし、確率論的エリートメンバーシップ(PEM)を提案する。 PEMは、進化戦略における厳格な階級ベースの重みを、ランクの不確実性よりも統合された条件付きランク重みに置き換える。低雑音状態に対する適応型プローブ・アンド・スウィッチ機構を応用して,PEMのインスタンス化を行う。
参考スコア（独自算出の注目度）: 0.8116687935773981
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Noisy evolution strategies under fixed evaluation budgets face a depth-fidelity trade-off: spending evaluations to denoise intra-generation rankings reduces the number of distribution updates the optimizer can execute. We argue for depth over fidelity and propose probabilistic elite membership (PEM), which replaces hard rank-based weights in evolution strategies with conditional expected rank weights that integrate over ranking uncertainty. PEM preserves the conditional mean update while reducing conditional update dispersion, a Rao-Blackwellization of the noisy rank-based step. We instantiate PEM via residual bootstrapping (RB-PEM) with capped per-generation overhead, complemented by an adaptive probe-and-switch mechanism for low-noise regimes. Across the COCO bbob-noisy suite and external tasks including RL policy search and hyperparameter optimization, RB-PEM achieves consistent gains in high-misranking, budget-constrained settings.
Abstract（参考訳）: 固定評価予算の下でのノイズの多い進化戦略は、深度忠実なトレードオフに直面している: 世代内ランキングを損なうための支出評価は、最適化者が実行できる配布更新数を減少させる。我々は、不確実性よりも密着した条件付きランクウェイトに、進化戦略における厳格なランクベースの重みを置き換える確率的エリートメンバーシップ(PEM)を提案する。 PEMは条件平均更新を保ち、条件平均更新分散を低減する。低ノイズ状態に対する適応型プローブ・アンド・スウィッチ機構を応用して,PEMのインスタンス化を行う。 COCO bbob-noisy スイートと RL ポリシー検索やハイパーパラメータ最適化を含む外部タスクの他、RB-PEM は、高ミスグレード、予算制約のある設定で一貫したゲインを達成している。

関連論文リスト

Ratio-Variance Regularized Policy Optimization [64.95520246570446]
ポリシ比の分散を明示的に制約することは、信頼領域の制約に対する原則的な局所近似をもたらすことを示す。本稿では,この制約を実装したR2bf VPO$(Ratio-Variance Regularized Policy Optimization)を紹介する。
論文参考訳（メタデータ） (2026-05-26T09:53:42Z)
ANO: A Principled Approach to Robust Policy Optimization [19.004647288017814]
政策最適化のための基本設計空間を導入し、ロバストな推定器が本質的に外れ値を抑制する必要があることを示す。 ANO(Anchored Neighborhood Optimization)は,クリッピングを再帰的な勾配機構でシームレスに置き換える手法である。継続的(MuJoCo)と離散的(Atari)制御において、ANOは、高度に攻撃的な学習率の下でも、政策崩壊を独特に防止する、堅牢な最先端技術を確立している。
論文参考訳（メタデータ） (2026-05-04T08:15:52Z)
Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文参考訳（メタデータ） (2026-03-07T01:49:59Z)
Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。 DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文参考訳（メタデータ） (2026-02-04T18:59:04Z)
GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。 PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文参考訳（メタデータ） (2025-10-25T14:51:17Z)
BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。 BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。 AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文参考訳（メタデータ） (2025-10-21T12:55:04Z)
ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文参考訳（メタデータ） (2025-10-13T20:05:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。