論文の概要: Black-Box Optimization with Implicit Constraints for Public Policy
- arxiv url: http://arxiv.org/abs/2310.18449v5
- Date: Wed, 22 Jan 2025 05:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:27.289910
- Title: Black-Box Optimization with Implicit Constraints for Public Policy
- Title(参考訳): 公共政策の制約を伴わないブラックボックス最適化
- Authors: Wenqian Xing, JungHo Lee, Chong Liu, Shixiang Zhu,
- Abstract要約: 本稿では,CageBO(Conditional and Generative Black-box Optimization)と呼ばれる新しいBBOフレームワークを紹介する。
CageBOは、公共政策アプリケーションでよく見られる暗黙の制約を効率的に処理する。
我々のCageBOは,ベースラインに比べて性能と効率が著しく向上していることが明らかとなった。
- 参考スコア(独自算出の注目度): 7.905659620019301
- License:
- Abstract: Black-box optimization (BBO) has become increasingly relevant for tackling complex decision-making problems, especially in public policy domains such as police redistricting. However, its broader application in public policymaking is hindered by the complexity of defining feasible regions and the high-dimensionality of decisions. This paper introduces a novel BBO framework, termed as the Conditional And Generative Black-box Optimization (CageBO). This approach leverages a conditional variational autoencoder to learn the distribution of feasible decisions, enabling a two-way mapping between the original decision space and a simplified, constraint-free latent space. The CageBO efficiently handles the implicit constraints often found in public policy applications, allowing for optimization in the latent space while evaluating objectives in the original space. We validate our method through a case study on large-scale police redistricting problems in Atlanta, Georgia. Our results reveal that our CageBO offers notable improvements in performance and efficiency compared to the baselines.
- Abstract(参考訳): ブラックボックス最適化(BBO)は、特に警察の再編成のような公共政策領域において、複雑な意思決定問題に対処するためにますます重要になっている。
しかし、公共政策におけるその広範な適用は、実現可能な地域を定義する複雑さと意思決定の高次元性によって妨げられている。
本稿では,CageBO(Conditional and Generative Black-box Optimization)と呼ばれる新しいBBOフレームワークを紹介する。
このアプローチは条件付き変分オートエンコーダを利用して、実現可能な決定の分布を学習し、元の決定空間と単純化された制約のない潜在空間との双方向マッピングを可能にする。
CageBOは、公共政策アプリケーションでよく見られる暗黙の制約を効果的に処理し、元の空間の目的を評価しながら、潜在空間における最適化を可能にする。
ジョージア州アトランタにおける大規模警察再編成問題のケーススタディにより,本手法の有効性を検証した。
我々のCageBOは,ベースラインに比べて性能と効率が著しく向上していることが明らかとなった。
関連論文リスト
- LABCAT: Locally adaptive Bayesian optimization using principal-component-aligned trust regions [0.0]
信頼領域に基づくBOを拡張した LABCAT アルゴリズムを提案する。
このアルゴリズムは、最先端のBOや他のブラックボックス最適化アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-19T13:56:24Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Analysis of modular CMA-ES on strict box-constrained problems in the
SBOX-COST benchmarking suite [0.0]
ボックス制約は決定変数の領域を制限し、現実世界の最適化問題に共通する。
COCO/BBOBのような既存のベンチマークスイートは、実現不可能なソリューションの評価を可能にする。
本稿では,厳密なボックス制約付きベンチマークスイート(SBOX-COST)の初期研究について述べる。
予想とは裏腹に、飽和によるボックス制約の扱いは、それを処理しないよりも必ずしも良いものではない、ということが分かっています。
論文 参考訳(メタデータ) (2023-05-24T12:37:03Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Trust Region Policy Optimization with Optimal Transport Discrepancies:
Duality and Algorithm for Continuous Actions [5.820284464296154]
信頼地域政策最適化(Trust Region Policy Optimization)は、政策更新を安定化するための一般的なアプローチである。
本稿では,連続状態対応空間のための新しいアルゴリズム,OT-TRPO(Optimal Transport Trust Region Policy Optimization)を提案する。
以上の結果から,輸送の相違は最先端のアプローチよりも有利であることが示唆された。
論文 参考訳(メタデータ) (2022-10-20T10:04:35Z) - Distributionally-Constrained Policy Optimization via Unbalanced Optimal
Transport [15.294456568539148]
入居対策の空間における不均衡な最適輸送として政策最適化を策定します。
Bregman発散に基づく汎用RL目標を提案し,Dykstraのアルゴリズムを用いて最適化する。
論文 参考訳(メタデータ) (2021-02-15T23:04:37Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。