論文の概要: Robot Program Parameter Inference via Differentiable Shadow Program
Inversion
- arxiv url: http://arxiv.org/abs/2103.14452v1
- Date: Fri, 26 Mar 2021 13:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 17:33:55.896642
- Title: Robot Program Parameter Inference via Differentiable Shadow Program
Inversion
- Title(参考訳): 微分可能影プログラムインバージョンによるロボットプログラムパラメータ推定
- Authors: Benjamin Alt, Darko Katic, Rainer J\"akel, Asil Kaan Bozcuoglu,
Michael Beetz
- Abstract要約: 本稿では,データから直接最適なスキルパラメータを推測する新しい手法であるShadow Program Inversion(SPI)を提案する。
産業シナリオと家庭シナリオにおける3つの異なるロボットとスキルフレームワークの手法を評価した。
- 参考スコア(独自算出の注目度): 11.412702366904913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Challenging manipulation tasks can be solved effectively by combining
individual robot skills, which must be parameterized for the concrete physical
environment and task at hand. This is time-consuming and difficult for human
programmers, particularly for force-controlled skills. To this end, we present
Shadow Program Inversion (SPI), a novel approach to infer optimal skill
parameters directly from data. SPI leverages unsupervised learning to train an
auxiliary differentiable program representation ("shadow program") and realizes
parameter inference via gradient-based model inversion. Our method enables the
use of efficient first-order optimizers to infer optimal parameters for
originally non-differentiable skills, including many skill variants currently
used in production. SPI zero-shot generalizes across task objectives, meaning
that shadow programs do not need to be retrained to infer parameters for
different task variants. We evaluate our methods on three different robots and
skill frameworks in industrial and household scenarios. Code and examples are
available at https://innolab.artiminds.com/icra2021.
- Abstract(参考訳): 具体的な物理的環境や手前のタスクにパラメータ化する必要がある個々のロボットスキルを組み合わせることで、操作タスクの混在を効果的に解決することができる。
これは、人間プログラマ、特に力量制御スキルにとって、時間がかかり難い。
そこで我々は,データから直接最適なスキルパラメータを推測する新しい手法であるShadow Program Inversion (SPI)を提案する。
SPIは教師なし学習を活用して、補助的微分可能なプログラム表現(シャドウプログラム)を訓練し、勾配に基づくモデル反転によるパラメータ推論を実現する。
本手法は,実運用で使用されている多くのスキル変種を含む,元々の非微分可能スキルの最適パラメータを推定する効率的な一階最適化器の利用を可能にする。
SPIゼロショットはタスクの目的をまたいだ一般化であり、異なるタスクの変数のパラメータを推論するためにシャドウプログラムを再訓練する必要はない。
産業シナリオと家庭シナリオにおける3つの異なるロボットとスキルフレームワークの手法を評価した。
コードとサンプルはhttps://innolab.artiminds.com/icra2021。
関連論文リスト
- Shadow Program Inversion with Differentiable Planning: A Framework for Unified Robot Program Parameter and Trajectory Optimization [6.890628942323211]
SPI-DPはロボットプログラムのための新しい一階最適化手法である。
直列N-DoFキネマティクスのための衝突のない運動プランナDGPMP2-NDを紹介する。
我々は,2つの実用的・産業的応用に関する総合的な評価を行う。
論文 参考訳(メタデータ) (2024-09-13T09:46:41Z) - MuTT: A Multimodal Trajectory Transformer for Robot Skills [14.84252843639553]
MuTTは、ロボットスキルの環境対応実行を予測するために設計された、新しいエンコーダ・デコーダ変換アーキテクチャである。
我々は、視覚と軌跡の融合を開拓し、新しい軌跡投影を導入した。
このアプローチは,現実的な実行を必要とせずに,現状環境におけるロボットスキルパラメータの最適化を容易にする。
論文 参考訳(メタデータ) (2024-07-22T14:18:52Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - Learning of Parameters in Behavior Trees for Movement Skills [0.9562145896371784]
振舞い木(BT)は、モジュラーと構成可能なスキルをサポートするポリシー表現を提供することができる。
本稿では,BTポリシーのパラメータをシミュレーションで学習し,追加のトレーニングを伴わずに物理ロボットに一般化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-27T13:46:39Z) - Replicate or Relocate? Non-Uniform Access in Parameter Servers [74.89066750738971]
ホットスポットパラメータを複製し、アクセス頻度の低いパラメータを再配置し、非決定性を管理する専門技術を採用しているPSであるLapse2を紹介します。
私たちの実験研究では、Lapse2は既存の単一技術PSを最大1桁上回った。
論文 参考訳(メタデータ) (2021-04-01T14:52:32Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Bayesian Optimization for Developmental Robotics with Meta-Learning by
Parameters Bounds Reduction [6.19424794628672]
本稿では,長期記憶と推論モジュールに基づく開発フレームワークを提案する(ベイジアン最適化,視覚的類似性,パラメータ境界縮小)。
シミュレーションでは8つの異なるオブジェクトのビンピッキングタスク(シミュレーションでは7つ,実際のセットアップでは1つ,他の類似したオブジェクトからのエクスペリエンスを伴わないメタラーニング)を作成するために,非常に小さな最適化予算にもかかわらず,成果を達成できた。
論文 参考訳(メタデータ) (2020-07-30T10:55:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。