論文の概要: Expected Improvement via Gradient Norms
- arxiv url: http://arxiv.org/abs/2601.21357v1
- Date: Thu, 29 Jan 2026 07:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.648597
- Title: Expected Improvement via Gradient Norms
- Title(参考訳): グラディエントノームによる改善を期待する
- Authors: Joshua Hang Sai Ip, Georgios Makrygiorgos, Ali Mesbah,
- Abstract要約: 期待された改善(EI)は過度に悪用されることが知られており、最適な準定常点に収束することができる。
本稿では,勾配対応補助目的に改良原理を適用した新たな獲得関数であるグラディエントノルム(EI-GN)による期待改善を提案する。
EI-GNは、関数評価から原理的勾配推論を可能にする勾配強化サロゲートモデルを学習するために使用される勾配観測に依存する。
- 参考スコア(独自算出の注目度): 2.542957206389996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian Optimization (BO) is a principled approach for optimizing expensive black-box functions, with Expected Improvement (EI) being one of the most widely used acquisition functions. Despite its empirical success, EI is known to be overly exploitative and can converge to suboptimal stationary points. We propose Expected Improvement via Gradient Norms (EI-GN), a novel acquisition function that applies the improvement principle to a gradient-aware auxiliary objective, thereby promoting sampling in regions that are both high-performing and approaching first-order stationarity. EI-GN relies on gradient observations used to learn gradient-enhanced surrogate models that enable principled gradient inference from function evaluations. We derive a tractable closed-form expression for EI-GN that allows efficient optimization and show that the proposed acquisition is consistent with the improvement-based acquisition framework. Empirical evaluations on standard BO benchmarks demonstrate that EI-GN yields consistent improvements against standard baselines. We further demonstrate applicability of EI-GN to control policy learning problems.
- Abstract(参考訳): ベイズ最適化(BO)は、高価なブラックボックス関数を最適化するための原則的なアプローチであり、期待された改善(EI)は最も広く使われている取得関数の1つである。
経験的成功にもかかわらず、EIは過度に悪用され、準最適定常点に収束することが知られている。
本稿では,勾配対応補助目的に改良原理を適用した新たな獲得関数であるグラディエントノルム(EI-GN)による期待改善を提案する。
EI-GNは、関数評価から原理的勾配推論を可能にする勾配強化サロゲートモデルを学習するために使用される勾配観測に依存する。
効率的な最適化が可能なEI-GNの抽出可能なクローズドフォーム式を導出し,提案手法が改良ベースの獲得フレームワークと一致していることを示す。
標準BOベンチマークに関する実証的な評価は、EI-GNが標準ベースラインに対して一貫した改善をもたらすことを示している。
さらに,政策学習問題に対するEI-GNの適用性を示す。
関連論文リスト
- Gradient Regularized Natural Gradients [20.85716825925689]
自然な勾配更新と明示的な正規化を統合したスケーラブルな2階勾配群を提案する。
我々は、GRNGの収束保証を確立し、勾配正則化が安定性を改善し、大域的最小値への収束を可能にすることを示す。
論文 参考訳(メタデータ) (2026-01-26T12:25:04Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - OBLR-PO: A Theoretical Framework for Stable Reinforcement Learning [12.77713716713937]
一般的な政策次数推定器の統計特性を特徴付ける統一理論フレームワークを提供する。
勾配の信号対雑音比(SNR)によって制御される適応的な学習率スケジュールを導出する。
さらに、分散-最適基底線が勾配重み付き推定器であることを示し、分散還元の新しい原理を提供する。
論文 参考訳(メタデータ) (2025-11-28T16:09:28Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - A Unified Framework for Entropy Search and Expected Improvement in Bayesian Optimization [6.745285924097932]
本稿では,EIと情報理論獲得関数が従来認識されていたよりも密接な関係があることを明らかにする統一理論フレームワークである変分エントロピー探索を導入する。
本稿では,EI と MES の強度のバランスをとる新しい獲得関数 VES-Gamma を提案する。
論文 参考訳(メタデータ) (2025-01-30T21:15:00Z) - Unexpected Improvements to Expected Improvement for Bayesian Optimization [21.901803477674264]
提案するLogEIは,メンバが標準値と同一あるいはほぼ等しい最適値を持つが,数値的最適化が極めて容易な,新たな獲得関数群である。
実験結果から,LogEIファミリーの獲得関数は,標準関数の最適化性能を大幅に向上し,最近の最先端の獲得関数の性能に匹敵する結果が得られた。
論文 参考訳(メタデータ) (2023-10-31T17:59:56Z) - Adjusted Expected Improvement for Cumulative Regret Minimization in Noisy Bayesian Optimization [37.99915557191065]
我々は, 累積的後悔の下で, 期待される改善機能に適応する。
評価コストと呼ばれる新しい量を、取得機能と比較する。
我々は、最大情報ゲインに基づいて、EICの高確率後悔上限を確立する。
論文 参考訳(メタデータ) (2022-05-10T13:50:10Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。