論文の概要: Mixed Strategies for Robust Optimization of Unknown Objectives
- arxiv url: http://arxiv.org/abs/2002.12613v2
- Date: Mon, 2 Mar 2020 09:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:27:54.862064
- Title: Mixed Strategies for Robust Optimization of Unknown Objectives
- Title(参考訳): 未知目的のロバスト最適化のための混合戦略
- Authors: Pier Giuseppe Sessa, Ilija Bogunovic, Maryam Kamgarpour, Andreas
Krause
- Abstract要約: そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
- 参考スコア(独自算出の注目度): 93.8672371143881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider robust optimization problems, where the goal is to optimize an
unknown objective function against the worst-case realization of an uncertain
parameter. For this setting, we design a novel sample-efficient algorithm
GP-MRO, which sequentially learns about the unknown objective from noisy point
evaluations. GP-MRO seeks to discover a robust and randomized mixed strategy,
that maximizes the worst-case expected objective value. To achieve this, it
combines techniques from online learning with nonparametric confidence bounds
from Gaussian processes. Our theoretical results characterize the number of
samples required by GP-MRO to discover a robust near-optimal mixed strategy for
different GP kernels of interest. We experimentally demonstrate the performance
of our algorithm on synthetic datasets and on human-assisted trajectory
planning tasks for autonomous vehicles. In our simulations, we show that robust
deterministic strategies can be overly conservative, while the mixed strategies
found by GP-MRO significantly improve the overall performance.
- Abstract(参考訳): そこでは,不確実パラメータの最悪の実現に対して,未知の目的関数を最適化することが目的である。
そこで我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
これを実現するために、オンライン学習のテクニックとガウス過程の非パラメトリック信頼境界を組み合わせる。
GP-MROが興味のある異なるGPカーネルに対して,頑健な準最適混合戦略を発見するのに必要なサンプル数を特徴付ける。
我々は,合成データセットおよび自律走行車両の軌道計画タスクにおけるアルゴリズムの性能を実験的に実証する。
GP-MROの混合戦略は全体の性能を著しく改善するが,本シミュレーションでは頑健な決定論的戦略が過度に保守的であることを示す。
関連論文リスト
- Global Optimization of Gaussian Process Acquisition Functions Using a Piecewise-Linear Kernel Approximation [2.3342885570554652]
本稿では,プロセスカーネルに対する一括近似と,取得関数に対するMIQP表現を紹介する。
我々は,合成関数,制約付きベンチマーク,ハイパーチューニングタスクに関するフレームワークを実証的に実証した。
論文 参考訳(メタデータ) (2024-10-22T10:56:52Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Deterministic Langevin Unconstrained Optimization with Normalizing Flows [3.988614978933934]
我々は,Fokker-Planck方程式とLangevin方程式にインスパイアされたブラックボックス関数に対するグローバルで自由な代理最適化戦略を導入する。
本研究は,標準合成試験関数の最適目的に向けての競争力の向上を実証する。
論文 参考訳(メタデータ) (2023-10-01T17:46:20Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Non-convex Distributionally Robust Optimization: Non-asymptotic Analysis [16.499651513178012]
分散ロバスト最適化(DRO)は、分散シフトに対してロバストなモデルを学ぶために広く使われている手法である。
目的関数はおそらく非滑らかであり,正規化勾配降下を有するにもかかわらず,非漸近収束を保証する。
論文 参考訳(メタデータ) (2021-10-24T14:56:38Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - An adaptive stochastic gradient-free approach for high-dimensional
blackbox optimization [0.0]
本研究では,高次元非平滑化問題に対する適応勾配フリー (ASGF) アプローチを提案する。
本稿では,グローバルな問題と学習タスクのベンチマークにおいて,本手法の性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T22:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。