論文の概要: Safe Sequential Optimization for Switching Environments
- arxiv url: http://arxiv.org/abs/2311.02119v1
- Date: Fri, 3 Nov 2023 05:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:22:37.060913
- Title: Safe Sequential Optimization for Switching Environments
- Title(参考訳): スイッチング環境における安全なシーケンス最適化
- Authors: Durgesh Kalwar and Vineeth B. S
- Abstract要約: 本稿では,時間とともに切り替わる未知の時間変化関数を最大化するために,逐次決定エージェントを設計する問題を考察する。
本稿では、Adaptive-SafeOptと呼ばれるポリシーを提案し、シミュレーションによる性能評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider the problem of designing a sequential decision making agent to
maximize an unknown time-varying function which switches with time. At each
step, the agent receives an observation of the function's value at a point
decided by the agent. The observation could be corrupted by noise. The agent is
also constrained to take safe decisions with high probability, i.e., the chosen
points should have a function value greater than a threshold. For this
switching environment, we propose a policy called Adaptive-SafeOpt and evaluate
its performance via simulations. The policy incorporates Bayesian optimization
and change point detection for the safe sequential optimization problem. We
observe that a major challenge in adapting to the switching change is to
identify safe decisions when the change point is detected and prevent
attraction to local optima.
- Abstract(参考訳): 時間とともに切り替わる未知の時間変動関数を最大化するために逐次意思決定エージェントを設計する問題を考える。
各ステップにおいて、エージェントは、エージェントが決定するポイントにおいて、関数の値の観察を受ける。
その観察は騒音で損なわれるかもしれない。
エージェントはまた、高い確率で安全な決定を行うこと、すなわち選択された点が閾値よりも大きい関数値を持つように制約される。
そこで我々はAdaptive-SafeOptというポリシーを提案し,その性能をシミュレーションにより評価する。
このポリシーは、安全な逐次最適化問題に対するベイズ最適化と変更点検出を取り入れている。
スイッチング変更に適応する上での大きな課題は、変更点が検出された場合の安全な決定を識別し、局所的最適への誘引を防止することである。
関連論文リスト
- Safe Time-Varying Optimization based on Gaussian Processes with Spatio-Temporal Kernel [4.586346034304039]
TVSafeOptは、未知の報酬と安全機能を持つ時間変化最適化問題のアルゴリズムである。
TVSafeOptは、明示的な変更検出を必要とせずに、時間変化のある安全な領域を安全に追跡することができる。
その結果,TVSafeOptは,安全と最適性の両方に関して,合成データ上でSafeOptと良好に比較できることがわかった。
論文 参考訳(メタデータ) (2024-09-26T16:09:19Z) - CMA-ES for Safe Optimization [9.130749109828717]
本研究は,効率的な進化アルゴリズムとしてCMA-ESに着目し,安全なCMA-ESと呼ばれる最適化手法を提案する。
安全なCMA-ESは、安全な最適化において安全性と効率の両方を達成するように設計されている。
論文 参考訳(メタデータ) (2024-05-17T04:24:56Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Adaptive Real Time Exploration and Optimization for Safety-Critical
Systems [0.0]
安全制約を考慮したプログラミング問題として,マルチアームバンディットを用いたARTEOアルゴリズムを提案する。
最適化入力の変化と探索を通して環境特性を学習する。
既存のセーフラーニング手法と比較して、我々のアルゴリズムは排他的な探索フェーズを必要とせず、探索点においても最適化目標に従う。
論文 参考訳(メタデータ) (2022-11-10T11:37:22Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Bayesian Persuasion for Algorithmic Recourse [28.586165301962485]
いくつかの状況では、根底にある予測モデルはゲームを避け、競争上の優位性を維持するために意図的に秘密にされている。
我々はベイズ的説得のゲームのような設定を捉え、意思決定者は、例えばアクションレコメンデーションのようなシグナルを、望ましい行動を取るためのインセンティブを与える決定対象に送信する。
本稿では,最適化問題として最適なベイズ的インセンティブ互換(BIC)行動推薦ポリシーを見出すという意思決定者の問題を定式化し,線形プログラムを用いて解を特徴づける。
論文 参考訳(メタデータ) (2021-12-12T17:18:54Z) - Optimal Sequential Detection of Signals with Unknown Appearance and
Disappearance Points in Time [64.26593350748401]
本論文は、変化の期間が有限で未知であると仮定して、逐次的な変化点検出問題に対処する。
我々は、所定の時間(または空間)ウィンドウにおける最小検出確率を最大化する信頼性の高い最大変更検出基準に焦点を当てる。
FMAアルゴリズムは、光学画像中の衛星のかすかなストリークを検出するために応用される。
論文 参考訳(メタデータ) (2021-02-02T04:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。