論文の概要: Data Generation Method for Learning a Low-dimensional Safe Region in
Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.05077v1
- Date: Fri, 10 Sep 2021 19:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:10:56.975618
- Title: Data Generation Method for Learning a Low-dimensional Safe Region in
Safe Reinforcement Learning
- Title(参考訳): 安全強化学習における低次元セーフ領域学習のためのデータ生成法
- Authors: Zhehua Zhou, Ozgur S. Oguz, Yi Ren, Marion Leibold and Martin Buss
- Abstract要約: 安全強化学習は、学習プロセス中にシステムや環境が損傷を受けないようにしながら、制御ポリシーを学習することを目的としている。
高非線形・高次元力学系に安全な強化学習を実装するためには、データ駆動特徴抽出法を用いて低次元の安全な領域を見つけることが考えられる。
学習した安全性推定の信頼性はデータに依存しているため、この研究において、異なるトレーニングデータが安全な強化学習アプローチにどのように影響するかを調査する。
- 参考スコア(独自算出の注目度): 9.903083270841638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning aims to learn a control policy while ensuring
that neither the system nor the environment gets damaged during the learning
process. For implementing safe reinforcement learning on highly nonlinear and
high-dimensional dynamical systems, one possible approach is to find a
low-dimensional safe region via data-driven feature extraction methods, which
provides safety estimates to the learning algorithm. As the reliability of the
learned safety estimates is data-dependent, we investigate in this work how
different training data will affect the safe reinforcement learning approach.
By balancing between the learning performance and the risk of being unsafe, a
data generation method that combines two sampling methods is proposed to
generate representative training data. The performance of the method is
demonstrated with a three-link inverted pendulum example.
- Abstract(参考訳): 安全な強化学習は、学習プロセス中にシステムや環境が損なわれないようにしながら、制御ポリシーを学ぶことを目的としている。
高非線形・高次元力学系に安全な強化学習を実装するためには,データ駆動型特徴抽出法を用いて低次元安全な領域を探索し,学習アルゴリズムの安全性を推定する。
学習した安全推定の信頼性はデータに依存しており,本研究では,異なるトレーニングデータが安全強化学習にどのように影響するかについて検討する。
学習性能と安全でないリスクのバランスをとることで、2つのサンプリング法を組み合わせたデータ生成法を提案し、代表訓練データを生成する。
本手法の性能は,3リンク倒立振子を例に示す。
関連論文リスト
- Global Safe Sequential Learning via Efficient Knowledge Transfer [21.817220232038157]
多くの医学や工学の応用において、データの選択は事前の未知の安全条件によって制約される。
安全性の学習を促進するために,安全なシーケンシャル学習を提案する。
論文 参考訳(メタデータ) (2024-02-22T09:43:25Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance [1.1470070927586016]
我々は、障害の存在下での強化学習における安全な探索問題に対処する。
制御対象と外乱の部分的事前知識を用いた安全な探索手法を提案する。
逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
論文 参考訳(メタデータ) (2022-09-30T13:00:33Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。