論文の概要: Conditional Generative Representation for Black-Box Optimization with
Implicit Constraints
- arxiv url: http://arxiv.org/abs/2310.18449v2
- Date: Fri, 2 Feb 2024 16:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:28:40.422367
- Title: Conditional Generative Representation for Black-Box Optimization with
Implicit Constraints
- Title(参考訳): 暗黙制約付きブラックボックス最適化のための条件付き生成表現
- Authors: Wenqian Xing, Jungho Lee, Chong Liu, Shixiang Zhu
- Abstract要約: 本稿では,CageBO(Conditional and Generative Black-box Optimization)と呼ばれる新しいBBOフレームワークを紹介する。
CageBOは、公共政策アプリケーションでよく見られる暗黙の制約を効率的に処理する。
我々のCageBOは,ベースラインに比べて性能と効率が著しく向上していることが明らかとなった。
- 参考スコア(独自算出の注目度): 8.63636519615632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-box optimization (BBO) has become increasingly relevant for tackling
complex decision-making problems, especially in public policy domains such as
police districting. However, its broader application in public policymaking is
hindered by the complexity of defining feasible regions and the
high-dimensionality of decisions. This paper introduces a novel BBO framework,
termed as the Conditional And Generative Black-box Optimization (CageBO). This
approach leverages a conditional variational autoencoder to learn the
distribution of feasible decisions, enabling a two-way mapping between the
original decision space and a simplified, constraint-free latent space. The
CageBO efficiently handles the implicit constraints often found in public
policy applications, allowing for optimization in the latent space while
evaluating objectives in the original space. We validate our method through a
case study on large-scale police districting problems in Atlanta, Georgia. Our
results reveal that our CageBO offers notable improvements in performance and
efficiency compared to the baselines.
- Abstract(参考訳): ブラックボックス最適化(BBO)は、特に警察の地区化のような公共政策領域において、複雑な意思決定問題に取り組むためにますます重要になっている。
しかし、公共政策におけるその広範な適用は、実現可能な地域を定義する複雑さと意思決定の高次元性によって妨げられている。
本稿では,CageBO(Conditional and Generative Black-box Optimization)と呼ばれる新しいBBOフレームワークを紹介する。
このアプローチは条件付き変分オートエンコーダを利用して実現可能な決定の分布を学習し、元の決定空間と単純で制約のない潜在空間の間の双方向マッピングを可能にする。
cageboは、パブリックポリシーアプリケーションでよく見られる暗黙の制約を効率的に処理し、元の空間の目的を評価しながら潜在空間での最適化を可能にする。
本手法は,ジョージア州アトランタにおける大規模警察地区問題に対するケーススタディを通じて検証した。
我々のCageBOは,ベースラインに比べて性能と効率が著しく向上していることがわかった。
関連論文リスト
- LABCAT: Locally adaptive Bayesian optimization using principal-component-aligned trust regions [0.0]
信頼領域に基づくBOを拡張した LABCAT アルゴリズムを提案する。
このアルゴリズムは、最先端のBOや他のブラックボックス最適化アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-19T13:56:24Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Analysis of modular CMA-ES on strict box-constrained problems in the
SBOX-COST benchmarking suite [0.0]
ボックス制約は決定変数の領域を制限し、現実世界の最適化問題に共通する。
COCO/BBOBのような既存のベンチマークスイートは、実現不可能なソリューションの評価を可能にする。
本稿では,厳密なボックス制約付きベンチマークスイート(SBOX-COST)の初期研究について述べる。
予想とは裏腹に、飽和によるボックス制約の扱いは、それを処理しないよりも必ずしも良いものではない、ということが分かっています。
論文 参考訳(メタデータ) (2023-05-24T12:37:03Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Trust Region Policy Optimization with Optimal Transport Discrepancies:
Duality and Algorithm for Continuous Actions [5.820284464296154]
信頼地域政策最適化(Trust Region Policy Optimization)は、政策更新を安定化するための一般的なアプローチである。
本稿では,連続状態対応空間のための新しいアルゴリズム,OT-TRPO(Optimal Transport Trust Region Policy Optimization)を提案する。
以上の結果から,輸送の相違は最先端のアプローチよりも有利であることが示唆された。
論文 参考訳(メタデータ) (2022-10-20T10:04:35Z) - Distributionally-Constrained Policy Optimization via Unbalanced Optimal
Transport [15.294456568539148]
入居対策の空間における不均衡な最適輸送として政策最適化を策定します。
Bregman発散に基づく汎用RL目標を提案し,Dykstraのアルゴリズムを用いて最適化する。
論文 参考訳(メタデータ) (2021-02-15T23:04:37Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。