論文の概要: Offline Model-Based Optimization via Policy-Guided Gradient Search
- arxiv url: http://arxiv.org/abs/2405.05349v1
- Date: Wed, 8 May 2024 18:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:52:18.635536
- Title: Offline Model-Based Optimization via Policy-Guided Gradient Search
- Title(参考訳): ポリシー誘導勾配探索によるオフラインモデルベース最適化
- Authors: Yassine Chemingui, Aryan Deshwal, Trong Nghia Hoang, Janardhan Rao Doppa,
- Abstract要約: オフライン強化学習問題として再構成することで、オフライン最適化のための新しい学習-探索-勾配の視点を導入する。
提案手法は,オフラインデータから生成されたサロゲートモデルに対して,適切なポリシーを明示的に学習する。
- 参考スコア(独自算出の注目度): 30.87992788876113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline optimization is an emerging problem in many experimental engineering domains including protein, drug or aircraft design, where online experimentation to collect evaluation data is too expensive or dangerous. To avoid that, one has to optimize an unknown function given only its offline evaluation at a fixed set of inputs. A naive solution to this problem is to learn a surrogate model of the unknown function and optimize this surrogate instead. However, such a naive optimizer is prone to erroneous overestimation of the surrogate (possibly due to over-fitting on a biased sample of function evaluation) on inputs outside the offline dataset. Prior approaches addressing this challenge have primarily focused on learning robust surrogate models. However, their search strategies are derived from the surrogate model rather than the actual offline data. To fill this important gap, we introduce a new learning-to-search perspective for offline optimization by reformulating it as an offline reinforcement learning problem. Our proposed policy-guided gradient search approach explicitly learns the best policy for a given surrogate model created from the offline data. Our empirical results on multiple benchmarks demonstrate that the learned optimization policy can be combined with existing offline surrogates to significantly improve the optimization performance.
- Abstract(参考訳): オフライン最適化は、タンパク質、薬物、航空機の設計を含む多くの実験工学分野において、評価データ収集のためのオンライン実験が高価すぎるか危険である、という新たな問題である。
それを避けるために、ある固定された入力セットでオフライン評価のみを与えられた未知の関数を最適化する必要がある。
この問題の簡単な解決策は、未知関数の代理モデルを学習し、代わりにこの代理を最適化することである。
しかし、このような単純最適化は、オフラインデータセット外の入力に対するサロゲートの過度な過大評価(おそらく関数評価のバイアス付きサンプルに過度に適合しているため)を誤って行う傾向にある。
この課題に対処する以前のアプローチは、堅牢な代理モデルの学習に重点を置いていた。
しかし、それらの探索戦略は実際のオフラインデータではなく代理モデルから導かれる。
この重要なギャップを埋めるために、オフライン強化学習問題として再構成することでオフライン最適化のための新しい学習と探索の視点を導入する。
提案手法は, オフラインデータから生成されたサロゲートモデルに対して, 最適ポリシーを明示的に学習する。
複数のベンチマークにおける実験結果から,学習した最適化ポリシーを既存のオフラインサロゲートと組み合わせることで,最適化性能を大幅に向上できることが示された。
関連論文リスト
- Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Offline Multi-Objective Optimization [23.543056729281695]
オフライン最適化は、静的データセットでブラックボックスの目的関数を最大化し、幅広いアプリケーションを持つことを目的としている。
我々はオフラインMOOのための最初のベンチマークを提案し、合成タスクから実世界のタスクまで幅広い問題をカバーしている。
実験の結果、トレーニングセットの最高の値よりも改善され、オフラインMOO手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-06T03:35:09Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - From Function to Distribution Modeling: A PAC-Generative Approach to
Offline Optimization [30.689032197123755]
本稿では、オフラインデータ例の集合を除いて目的関数が不明なオフライン最適化の問題について考察する。
未知の目的関数を学習して最適化するのではなく、より直感的で直接的な視点で、最適化は生成モデルからサンプリングするプロセスと考えることができる。
論文 参考訳(メタデータ) (2024-01-04T01:32:50Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - PASTA: Pessimistic Assortment Optimization [25.51792135903357]
オフラインデータ駆動環境でのアソシエーション最適化のクラスについて検討する。
本稿では,悲観主義の原理に基づくPASTA(Pessimistic Assortment opTimizAtion)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T01:11:51Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。