論文の概要: Optimal decision making in robotic assembly and other trial-and-error
tasks
- arxiv url: http://arxiv.org/abs/2301.10846v1
- Date: Wed, 25 Jan 2023 22:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:55:49.093437
- Title: Optimal decision making in robotic assembly and other trial-and-error
tasks
- Title(参考訳): ロボット組立および他の試行錯誤課題における最適意思決定
- Authors: James Watson, Nikolaus Correll
- Abstract要約: 本研究では,(1)終末成功/失敗の低エントロピー指標と(2)信頼できない(高エントロピー)データを提供する問題のクラスについて検討し,課題の最終結果を予測する。
フェール予測器の混乱行列に基づいてメイスパンを予測する閉形式解を導出する。
これにより、ロボットはプロダクション環境で障害予測を学習し、実際に時間を節約したときのみプリエンプティブポリシーを採用することができる。
- 参考スコア(独自算出の注目度): 1.0660480034605238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty in perception, actuation, and the environment often require
multiple attempts for a robotic task to be successful. We study a class of
problems providing (1) low-entropy indicators of terminal success / failure,
and (2) unreliable (high-entropy) data to predict the final outcome of an
ongoing task. Examples include a robot trying to connect with a charging
station, parallel parking, or assembling a tightly-fitting part. The ability to
restart after predicting failure early, versus simply running to failure, can
significantly decrease the makespan, that is, the total time to completion,
with the drawback of potentially short-cutting an otherwise successful
operation. Assuming task running times to be Poisson distributed, and using a
Markov Jump process to capture the dynamics of the underlying Markov Decision
Process, we derive a closed form solution that predicts makespan based on the
confusion matrix of the failure predictor. This allows the robot to learn
failure prediction in a production environment, and only adopt a preemptive
policy when it actually saves time. We demonstrate this approach using a
robotic peg-in-hole assembly problem using a real robotic system. Failures are
predicted by a dilated convolutional network based on force-torque data,
showing an average makespan reduction from 101s to 81s (N=120, p<0.05). We
posit that the proposed algorithm generalizes to any robotic behavior with an
unambiguous terminal reward, with wide ranging applications on how robots can
learn and improve their behaviors in the wild.
- Abstract(参考訳): 知覚、動作、環境の不確実性は、しばしばロボットタスクが成功するために複数の試みを必要とする。
本研究では,(1)終末成功/失敗の低エントロピー指標と(2)信頼できない(高エントロピー)データを提供する問題のクラスについて検討し,課題の最終結果を予測する。
例えば、充電ステーションと接続しようとするロボット、並列駐車、あるいはしっかりとフィットした部品の組み立てなどだ。
失敗を早期に予測した後に再起動する能力と、単に失敗に走る能力は、スパン、すなわち完了までの総時間を著しく減少させ、他の方法で成功した操作をショートカットする可能性の欠点を負う。
タスク実行時間をポアソン分布と仮定し、マルコフジャンププロセスを用いて基礎となるマルコフ決定過程のダイナミクスを捉えると、故障予測器の混乱行列に基づいてフェイスパンを予測する閉形式解が導出される。
これにより、ロボットはプロダクション環境で障害予測を学習し、実際に時間を節約したときのみプリエンプティブポリシーを採用することができる。
実際のロボットシステムを用いたpeg-in-holeアセンブリ問題を用いて,このアプローチを実証する。
破壊は、力トルクデータに基づく拡張畳み込みネットワークによって予測され、平均メイスパンが101sから81sに減少する(N=120, p<0.05)。
提案アルゴリズムは、ロボットが野生での動作を学習し、改善する方法を幅広く応用し、明確な端末報酬でロボットの動作を一般化するものであると仮定する。
関連論文リスト
- Generalizability of Graph Neural Networks for Decentralized Unlabeled Motion Planning [72.86540018081531]
ラベルなしの動作計画では、衝突回避を確保しながら、ロボットのセットを目標の場所に割り当てる。
この問題は、探査、監視、輸送などの応用において、マルチロボットシステムにとって不可欠なビルディングブロックを形成している。
この問題に対処するために、各ロボットは、その400ドルのアネレストロボットと$k$アネレストターゲットの位置のみを知っている分散環境で対処する。
論文 参考訳(メタデータ) (2024-09-29T23:57:25Z) - Learning to Recover from Plan Execution Errors during Robot Manipulation: A Neuro-symbolic Approach [7.768747914019512]
本稿では,自動エラー発見とリカバリのためのアプローチ(記号探索によるブレンディング学習)を提案する。
我々はアルゴリズムの任意のバージョンを提示し、最後に正しい状態に戻る代わりに、元の計画におけるサブゴールを探索する。
論文 参考訳(メタデータ) (2024-05-29T10:03:57Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Asking for Help: Failure Prediction in Behavioral Cloning through Value
Approximation [8.993237527071756]
本稿では,行動クローン化政策と協調して,状態値関数を学習する手法である行動クローン値近似(BCVA)を導入する。
我々は,ラッチドア開口の移動操作課題にBCVAを適用し,BCVAの有効性を実証した。
論文 参考訳(メタデータ) (2023-02-08T20:56:23Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Learning from Sparse Demonstrations [17.24236148404065]
本稿では,ロボットが対象関数を学習できる連続ポントリャーギン微分可能計画法(Continuous PDP)を開発した。
本手法は,ロボットの軌道を逐次追従する目的関数と時間ワープ関数を最小の差分損失で検出する。
本手法はまず,シミュレーションロボットアームを用いて評価し,次に6-DoF四重極子に適用し,非モデル化環境における動作計画の目的関数を学習する。
論文 参考訳(メタデータ) (2020-08-05T14:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。