Fugu-MT 論文翻訳(概要): Robot Learning with Crash Constraints

論文の概要: Robot Learning with Crash Constraints

arxiv url: http://arxiv.org/abs/2010.08669v3
Date: Thu, 28 Jan 2021 00:34:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 22:06:10.030442
Title: Robot Learning with Crash Constraints
Title（参考訳）: クラッシュ制約によるロボット学習
Authors: Alonso Marco, Dominik Baumann, Majid Khadiv, Philipp Hennig, Ludovic Righetti, Sebastian Trimpe
Abstract要約: 失敗が望ましくないが破滅的でないロボットアプリケーションでは、多くのアルゴリズムは失敗から得られたデータを活用するのに苦労する。これは通常、(i)失敗した実験が早めに終了すること、または(ii)取得したデータが不足または破損することによって引き起こされる。我々は、失敗する振る舞いを制約に違反し、クラッシュ制約で学習する問題に対処するものとみなす。
参考スコア（独自算出の注目度）: 37.685515446816105
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the past decade, numerous machine learning algorithms have been shown to successfully learn optimal policies to control real robotic systems. However, it is common to encounter failing behaviors as the learning loop progresses. Specifically, in robot applications where failing is undesired but not catastrophic, many algorithms struggle with leveraging data obtained from failures. This is usually caused by (i) the failed experiment ending prematurely, or (ii) the acquired data being scarce or corrupted. Both complicate the design of proper reward functions to penalize failures. In this paper, we propose a framework that addresses those issues. We consider failing behaviors as those that violate a constraint and address the problem of learning with crash constraints, where no data is obtained upon constraint violation. The no-data case is addressed by a novel GP model (GPCR) for the constraint that combines discrete events (failure/success) with continuous observations (only obtained upon success). We demonstrate the effectiveness of our framework on simulated benchmarks and on a real jumping quadruped, where the constraint threshold is unknown a priori. Experimental data is collected, by means of constrained Bayesian optimization, directly on the real robot. Our results outperform manual tuning and GPCR proves useful on estimating the constraint threshold.
Abstract（参考訳）: 過去10年間で、多くの機械学習アルゴリズムが、実際のロボットシステムを制御するための最適なポリシーを学習することに成功した。しかし、学習ループが進むにつれて失敗する行動に遭遇することが一般的である。特に、失敗が望ましくないが破滅的ではないロボットアプリケーションでは、多くのアルゴリズムが失敗から得られたデータを活用するのに苦労している。これは通常原因である (i)失敗実験が早期に終わること、又は二取得したデータが不足又は破損すること。どちらも障害を罰する適切な報酬関数の設計を複雑にする。本稿では,これらの問題に対処する枠組みを提案する。我々は,障害動作を制約に違反する動作として捉え,制約違反時にデータが得られないクラッシュ制約で学習する問題に対処する。 no-dataケースは、離散事象(障害/障害)と連続観測(成功時にのみ得られる)を組み合わせた制約のための新しいGPモデル(GPCR)によって対処される。本手法は,シミュレーションベンチマークおよび実跳躍4乗法において,制約しきい値が予め不明な場合に有効であることを示す。実験データは、拘束されたベイズ最適化によって、実際のロボットに直接収集される。その結果,手動チューニングとGPCRは制約閾値の推定に有用であることが判明した。

関連論文リスト

Pseudo-Simulation for Autonomous Driving [54.0732376977553]
既存の自動運転車(AV)の評価パラダイムは、重大な制限に直面している。現実世界の評価は、安全上の懸念と現実主義の欠如のためにしばしば困難である。オープンループ評価は、一般的に複合的なエラーを見落としているメトリクスに依存する。
論文参考訳（メタデータ） (2025-06-04T17:57:53Z)
Exposing the Copycat Problem of Imitation-based Planner: A Novel Closed-Loop Simulator, Causal Benchmark and Joint IL-RL Baseline [49.51385135697656]
機械学習ベースの計画では、模倣学習(IL)が一般的なアルゴリズムである。主に、教師付き軌跡データから直接ポリシーを学習する。学習した方針が根本的駆動原理を真に理解しているかどうかを判断することは依然として困難である。本研究は、模倣と強化学習の両方をサポートする新しいクローズドループシミュレータを提案する。
論文参考訳（メタデータ） (2025-04-20T18:51:26Z)
Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies [19.27526590452503]
FAIL-Detectは、模倣学習に基づくロボット操作における障害検出のための2段階のアプローチである。まず、政策失敗と相関し、不確実性を捉えるスカラー信号にポリシー入力と出力を蒸留する。我々の実験は、新しいフローベース密度推定器を使用する場合、学習信号がほぼ一貫した効果を示す。
論文参考訳（メタデータ） (2025-03-11T15:47:12Z)
Rare event modeling with self-regularized normalizing flows: what can we learn from a single failure? [10.460029312784911]
本稿では,限られたデータから後進学習を行うフレームワークであるCalNFを紹介する。データ制限された障害モデリングと逆問題に対して、最先端のパフォーマンスを実現する。 2022年のサウスウエスト航空のスケジュール危機の根本原因について、先進的なケーススタディを可能にする。
論文参考訳（メタデータ） (2025-02-28T14:47:52Z)
Positive-Unlabeled Constraint Learning (PUCL) for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations [8.361428709513476]
本稿では,実証から連続的な任意の制約関数を推論する,新しいPositive-Unlabeled Constraint Learning (PUCL)アルゴリズムを提案する。フレームワーク内では、すべてのデータをポジティブな(実現可能な)データとして扱うとともに、潜在的に不可能なトラジェクトリを生成するための制御ポリシーを学ぶ。連続的な非線形制約を推論し、転送し、制約精度とポリシー安全性の点で他のベースライン法より優れている。
論文参考訳（メタデータ） (2024-08-03T01:09:48Z)
Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning [8.361428709513476]
本稿では,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。提案手法の有効性を2つのMujoco環境で検証した。
論文参考訳（メタデータ） (2024-07-23T14:00:18Z)
Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文参考訳（メタデータ） (2024-02-24T09:47:46Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Optimal decision making in robotic assembly and other trial-and-error tasks [1.0660480034605238]
本研究では,(1)終末成功/失敗の低エントロピー指標と(2)信頼できない(高エントロピー)データを提供する問題のクラスについて検討し,課題の最終結果を予測する。フェール予測器の混乱行列に基づいてメイスパンを予測する閉形式解を導出する。これにより、ロボットはプロダクション環境で障害予測を学習し、実際に時間を節約したときのみプリエンプティブポリシーを採用することができる。
論文参考訳（メタデータ） (2023-01-25T22:07:50Z)
Benchmarking Constraint Inference in Inverse Reinforcement Learning [19.314352936252444]
多くの実世界の問題において、専門家が従う制約は、RLエージェントに数学的に、未知に指定することがしばしば困難である。本稿では,ロボット制御と自律運転という2つの主要なアプリケーション領域の文脈において,CIRLベンチマークを構築する。 CIRLアルゴリズムのパフォーマンスを再現するための情報を含むこのベンチマークは、https://github.com/Guiliang/CIRL-benchmarks-publicで公開されている。
論文参考訳（メタデータ） (2022-06-20T09:22:20Z)
Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文参考訳（メタデータ） (2022-06-04T19:45:02Z)
Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文参考訳（メタデータ） (2021-11-18T23:21:00Z)
Excursion Search for Constrained Bayesian Optimization under a Limited Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文参考訳（メタデータ） (2020-05-15T09:54:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。