論文の概要: Robot Learning with Crash Constraints
- arxiv url: http://arxiv.org/abs/2010.08669v3
- Date: Thu, 28 Jan 2021 00:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 22:06:10.030442
- Title: Robot Learning with Crash Constraints
- Title(参考訳): クラッシュ制約によるロボット学習
- Authors: Alonso Marco, Dominik Baumann, Majid Khadiv, Philipp Hennig, Ludovic
Righetti, Sebastian Trimpe
- Abstract要約: 失敗が望ましくないが破滅的でないロボットアプリケーションでは、多くのアルゴリズムは失敗から得られたデータを活用するのに苦労する。
これは通常、(i)失敗した実験が早めに終了すること、または(ii)取得したデータが不足または破損することによって引き起こされる。
我々は、失敗する振る舞いを制約に違反し、クラッシュ制約で学習する問題に対処するものとみなす。
- 参考スコア(独自算出の注目度): 37.685515446816105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decade, numerous machine learning algorithms have been shown to
successfully learn optimal policies to control real robotic systems. However,
it is common to encounter failing behaviors as the learning loop progresses.
Specifically, in robot applications where failing is undesired but not
catastrophic, many algorithms struggle with leveraging data obtained from
failures. This is usually caused by (i) the failed experiment ending
prematurely, or (ii) the acquired data being scarce or corrupted. Both
complicate the design of proper reward functions to penalize failures. In this
paper, we propose a framework that addresses those issues. We consider failing
behaviors as those that violate a constraint and address the problem of
learning with crash constraints, where no data is obtained upon constraint
violation. The no-data case is addressed by a novel GP model (GPCR) for the
constraint that combines discrete events (failure/success) with continuous
observations (only obtained upon success). We demonstrate the effectiveness of
our framework on simulated benchmarks and on a real jumping quadruped, where
the constraint threshold is unknown a priori. Experimental data is collected,
by means of constrained Bayesian optimization, directly on the real robot. Our
results outperform manual tuning and GPCR proves useful on estimating the
constraint threshold.
- Abstract(参考訳): 過去10年間で、多くの機械学習アルゴリズムが、実際のロボットシステムを制御するための最適なポリシーを学習することに成功した。
しかし、学習ループが進むにつれて失敗する行動に遭遇することが一般的である。
特に、失敗が望ましくないが破滅的ではないロボットアプリケーションでは、多くのアルゴリズムが失敗から得られたデータを活用するのに苦労している。
これは通常原因である
(i)失敗実験が早期に終わること、又は
二 取得したデータが不足又は破損すること。
どちらも障害を罰する適切な報酬関数の設計を複雑にする。
本稿では,これらの問題に対処する枠組みを提案する。
我々は,障害動作を制約に違反する動作として捉え,制約違反時にデータが得られないクラッシュ制約で学習する問題に対処する。
no-dataケースは、離散事象(障害/障害)と連続観測(成功時にのみ得られる)を組み合わせた制約のための新しいGPモデル(GPCR)によって対処される。
本手法は,シミュレーションベンチマークおよび実跳躍4乗法において,制約しきい値が予め不明な場合に有効であることを示す。
実験データは、拘束されたベイズ最適化によって、実際のロボットに直接収集される。
その結果,手動チューニングとGPCRは制約閾値の推定に有用であることが判明した。
関連論文リスト
- Positive-Unlabeled Constraint Learning (PUCL) for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations [8.361428709513476]
本稿では,実証から連続的な任意の制約関数を推論する,新しいPositive-Unlabeled Constraint Learning (PUCL)アルゴリズムを提案する。
フレームワーク内では、すべてのデータをポジティブな(実現可能な)データとして扱うとともに、潜在的に不可能なトラジェクトリを生成するための制御ポリシーを学ぶ。
連続的な非線形制約を推論し、転送し、制約精度とポリシー安全性の点で他のベースライン法より優れている。
論文 参考訳(メタデータ) (2024-08-03T01:09:48Z) - Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning [8.361428709513476]
本稿では,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
提案手法の有効性を2つのMujoco環境で検証した。
論文 参考訳(メタデータ) (2024-07-23T14:00:18Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Optimal decision making in robotic assembly and other trial-and-error
tasks [1.0660480034605238]
本研究では,(1)終末成功/失敗の低エントロピー指標と(2)信頼できない(高エントロピー)データを提供する問題のクラスについて検討し,課題の最終結果を予測する。
フェール予測器の混乱行列に基づいてメイスパンを予測する閉形式解を導出する。
これにより、ロボットはプロダクション環境で障害予測を学習し、実際に時間を節約したときのみプリエンプティブポリシーを採用することができる。
論文 参考訳(メタデータ) (2023-01-25T22:07:50Z) - Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。
本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。
CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文 参考訳(メタデータ) (2022-06-20T09:22:20Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。