論文の概要: Bayesian Optimization with Hidden Constraints via Latent Decision Models
- arxiv url: http://arxiv.org/abs/2310.18449v1
- Date: Fri, 27 Oct 2023 19:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:33:32.862879
- Title: Bayesian Optimization with Hidden Constraints via Latent Decision Models
- Title(参考訳): 潜在決定モデルによる隠れ制約付きベイズ最適化
- Authors: Wenqian Xing, Jungho Lee, Chong Liu, Shixiang Zhu
- Abstract要約: 本稿では、遅延決定モデルと統合された新しいBO法であるHidden-Constrained Latent Space Bayesian Optimization (HC-LSBO)を紹介する。
本手法は,ジョージア州アトランタの大規模警察管区問題に特化して,合成データと実データの両方を用いた数値実験により検証する。
- 参考スコア(独自算出の注目度): 8.63636519615632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian optimization (BO) has emerged as a potent tool for addressing
intricate decision-making challenges, especially in public policy domains such
as police districting. However, its broader application in public policymaking
is hindered by the complexity of defining feasible regions and the
high-dimensionality of decisions. This paper introduces the Hidden-Constrained
Latent Space Bayesian Optimization (HC-LSBO), a novel BO method integrated with
a latent decision model. This approach leverages a variational autoencoder to
learn the distribution of feasible decisions, enabling a two-way mapping
between the original decision space and a lower-dimensional latent space. By
doing so, HC-LSBO captures the nuances of hidden constraints inherent in public
policymaking, allowing for optimization in the latent space while evaluating
objectives in the original space. We validate our method through numerical
experiments on both synthetic and real data sets, with a specific focus on
large-scale police districting problems in Atlanta, Georgia. Our results reveal
that HC-LSBO offers notable improvements in performance and efficiency compared
to the baselines.
- Abstract(参考訳): ベイズ最適化(BO)は、特に警察管区のような公共政策領域において、複雑な意思決定課題に対処するための強力なツールとして登場した。
しかし、公共政策におけるその広範な適用は、実現可能な地域を定義する複雑さと意思決定の高次元性によって妨げられている。
本稿では、遅延決定モデルと統合された新しいBO法であるHidden-Constrained Latent Space Bayesian Optimization (HC-LSBO)を紹介する。
このアプローチは変分オートエンコーダを利用して実現可能な決定の分布を学習し、元の決定空間と低次元の潜在空間との双方向マッピングを可能にする。
そうすることでhc-lsboは、公共の政策立案に固有の隠れた制約のニュアンスを捉え、潜在空間における最適化を可能にし、元の空間における目標を評価する。
本手法は,ジョージア州アトランタの大規模警察管区問題に特化して,合成データと実データの両方を用いた数値実験により検証する。
その結果,HC-LSBOはベースラインに比べて性能と効率が向上していることがわかった。
関連論文リスト
- LABCAT: Locally adaptive Bayesian optimization using principal-component-aligned trust regions [0.0]
信頼領域に基づくBOを拡張した LABCAT アルゴリズムを提案する。
このアルゴリズムは、最先端のBOや他のブラックボックス最適化アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-19T13:56:24Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Analysis of modular CMA-ES on strict box-constrained problems in the
SBOX-COST benchmarking suite [0.0]
ボックス制約は決定変数の領域を制限し、現実世界の最適化問題に共通する。
COCO/BBOBのような既存のベンチマークスイートは、実現不可能なソリューションの評価を可能にする。
本稿では,厳密なボックス制約付きベンチマークスイート(SBOX-COST)の初期研究について述べる。
予想とは裏腹に、飽和によるボックス制約の扱いは、それを処理しないよりも必ずしも良いものではない、ということが分かっています。
論文 参考訳(メタデータ) (2023-05-24T12:37:03Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Trust Region Policy Optimization with Optimal Transport Discrepancies:
Duality and Algorithm for Continuous Actions [5.820284464296154]
信頼地域政策最適化(Trust Region Policy Optimization)は、政策更新を安定化するための一般的なアプローチである。
本稿では,連続状態対応空間のための新しいアルゴリズム,OT-TRPO(Optimal Transport Trust Region Policy Optimization)を提案する。
以上の結果から,輸送の相違は最先端のアプローチよりも有利であることが示唆された。
論文 参考訳(メタデータ) (2022-10-20T10:04:35Z) - Distributionally-Constrained Policy Optimization via Unbalanced Optimal
Transport [15.294456568539148]
入居対策の空間における不均衡な最適輸送として政策最適化を策定します。
Bregman発散に基づく汎用RL目標を提案し,Dykstraのアルゴリズムを用いて最適化する。
論文 参考訳(メタデータ) (2021-02-15T23:04:37Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。