論文の概要: Safe Bayesian Optimization for the Control of High-Dimensional Embodied Systems
- arxiv url: http://arxiv.org/abs/2412.20350v1
- Date: Sun, 29 Dec 2024 04:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:04:14.512796
- Title: Safe Bayesian Optimization for the Control of High-Dimensional Embodied Systems
- Title(参考訳): 高次元帯電系の安全ベイズ最適化
- Authors: Yunyue Wei, Zeji Yi, Hongda Li, Saraswati Soedarmadji, Yanan Sui,
- Abstract要約: 現在の安全な探索アルゴリズムは非効率であり、大きな高次元の入力空間では不可能になる可能性がある。
既存の高次元制約最適化手法は探索過程の安全性を無視する。
- 参考スコア(独自算出の注目度): 8.69908615905782
- License:
- Abstract: Learning to move is a primary goal for animals and robots, where ensuring safety is often important when optimizing control policies on the embodied systems. For complex tasks such as the control of human or humanoid control, the high-dimensional parameter space adds complexity to the safe optimization effort. Current safe exploration algorithms exhibit inefficiency and may even become infeasible with large high-dimensional input spaces. Furthermore, existing high-dimensional constrained optimization methods neglect safety in the search process. In this paper, we propose High-dimensional Safe Bayesian Optimization with local optimistic exploration (HdSafeBO), a novel approach designed to handle high-dimensional sampling problems under probabilistic safety constraints. We introduce a local optimistic strategy to efficiently and safely optimize the objective function, providing a probabilistic safety guarantee and a cumulative safety violation bound. Through the use of isometric embedding, HdSafeBO addresses problems ranging from a few hundred to several thousand dimensions while maintaining safety guarantees. To our knowledge, HdSafeBO is the first algorithm capable of optimizing the control of high-dimensional musculoskeletal systems with high safety probability. We also demonstrate the real-world applicability of HdSafeBO through its use in the safe online optimization of neural stimulation induced human motion control.
- Abstract(参考訳): 動物やロボットにとって、移動を学ぶことが第一の目標であり、エンボディシステムにおける制御ポリシーを最適化する際には、安全を確保することがしばしば重要である。
人間やヒューマノイド制御の制御のような複雑なタスクでは、高次元のパラメータ空間は安全な最適化作業に複雑さを増す。
現在の安全な探索アルゴリズムは非効率であり、大きな高次元の入力空間では不可能になる可能性がある。
さらに、既存の高次元制約最適化手法は、探索プロセスの安全性を無視する。
本稿では,確率論的安全性制約下での高次元サンプリング問題に対処するために,局所楽観探索を用いた高次元セーフベイズ最適化(HdSafeBO)を提案する。
目的関数を効率よく安全に最適化し,確率論的安全保証と累積的安全違反境界を提供する,局所楽観的戦略を導入する。
等尺埋め込みを用いることで、HdSafeBOは安全保証を維持しながら数百から数千の次元の問題に対処する。
我々の知る限り、HdSafeBOは安全性の高い高次元筋骨格系の制御を最適化できる最初のアルゴリズムである。
また,HdSafeBOの実際の適用性を,神経刺激による人体動作制御の安全なオンライン最適化に応用して実証した。
関連論文リスト
- Safe Time-Varying Optimization based on Gaussian Processes with Spatio-Temporal Kernel [4.586346034304039]
TVSafeOptは、未知の報酬と安全機能を持つ時間変化最適化問題のアルゴリズムである。
TVSafeOptは、明示的な変更検出を必要とせずに、時間変化のある安全な領域を安全に追跡することができる。
その結果,TVSafeOptは,安全と最適性の両方に関して,合成データ上でSafeOptと良好に比較できることがわかった。
論文 参考訳(メタデータ) (2024-09-26T16:09:19Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - GoSafeOpt: Scalable Safe Exploration for Global Optimization of
Dynamical Systems [75.22958991597069]
本研究は,高次元システムに対するグローバルな最適ポリシーを安全に発見できる最初のアルゴリズムとして,GoSafeOptを提案する。
ロボットアーム上でのモデルフリーの安全な学習方法よりも,GoSafeOptの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-01-24T10:05:44Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - GoSafe: Globally Optimal Safe Robot Learning [11.77348161331335]
SafeOptは効率的なベイズ最適化アルゴリズムであり、高い確率で安全性を確保しながらポリシーを学習することができる。
本手法は, 安全性を高い確率で保証しつつ, 初期安全区域の外を探索することによって拡張する。
ハードウェア実験において,グローバルな最適化へのコンバージェンスを保証する条件を導出し,GoSafeを検証する。
論文 参考訳(メタデータ) (2021-05-27T16:27:47Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。