論文の概要: Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation
- arxiv url: http://arxiv.org/abs/2206.06289v1
- Date: Mon, 13 Jun 2022 16:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 14:55:20.707414
- Title: Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation
- Title(参考訳): maniskill 2021: learning-from-demonstrations and heuristic rule-based method for object manipulation
- Authors: Yingwei Pan and Yehao Li and Yiheng Zhang and Qi Cai and Fuchen Long
and Zhaofan Qiu and Ting Yao and Tao Mei
- Abstract要約: 本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
- 参考スコア(独自算出の注目度): 118.27432851053335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an overview and comparative analysis of our systems
designed for the following two tracks in SAPIEN ManiSkill Challenge 2021:
No Interaction Track: The No Interaction track targets for learning policies
from pre-collected demonstration trajectories. We investigate both imitation
learning-based approach, i.e., imitating the observed behavior using classical
supervised learning techniques, and offline reinforcement learning-based
approaches, for this track. Moreover, the geometry and texture structures of
objects and robotic arms are exploited via Transformer-based networks to
facilitate imitation learning.
No Restriction Track: In this track, we design a Heuristic Rule-based Method
(HRM) to trigger high-quality object manipulation by decomposing the task into
a series of sub-tasks. For each sub-task, the simple rule-based controlling
strategies are adopted to predict actions that can be applied to robotic arms.
To ease the implementations of our systems, all the source codes and
pre-trained models are available at
\url{https://github.com/caiqi/Silver-Bullet-3D/}.
- Abstract(参考訳): 本稿では,sapien maniskill challenge 2021において,以下の2つのトラック用に設計されたシステムの概要と比較分析を行った。
模倣学習に基づくアプローチ,すなわち,古典的教師付き学習手法を用いた観察行動の模倣と,オフライン強化学習に基づくアプローチの両方について検討した。
さらに,物体やロボットアームの形状やテクスチャ構造をトランスフォーマーネットワークで活用し,模倣学習を容易にする。
No Restriction Track: このトラックでは、タスクを一連のサブタスクに分解することで高品質なオブジェクト操作をトリガーするHuristic Rule-based Method(HRM)を設計します。
各サブタスクに対して、ロボットアームに適用可能な動作を予測するための単純なルールベースの制御戦略が採用されている。
システムの実装を容易にするため、すべてのソースコードと事前訓練済みモデルは、 \url{https://github.com/caiqi/Silver-Bullet-3D/}で利用可能である。
関連論文リスト
- Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - Modular Neural Network Policies for Learning In-Flight Object Catching
with a Robot Hand-Arm System [55.94648383147838]
本稿では,ロボットハンドアームシステムによる飛行物体の捕獲方法の学習を可能にするモジュラーフレームワークを提案する。
本フレームワークは,物体の軌跡予測を学習するオブジェクト状態推定器,(ii)捕捉対象のポーズのスコアとランク付けを学ぶキャッチポーズ品質ネットワーク,(iii)ロボットハンドをキャッチ前ポーズに移動させるように訓練されたリーチ制御ポリシ,(iv)ソフトキャッチ動作を行うように訓練された把握制御ポリシの5つのコアモジュールから構成される。
各モジュールと統合システムのシミュレーションにおいて、我々のフレームワークを広範囲に評価し、飛行における高い成功率を示す。
論文 参考訳(メタデータ) (2023-12-21T16:20:12Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - NEARL: Non-Explicit Action Reinforcement Learning for Robotic Control [15.720231070808696]
本稿では,明示的な動作を伴わない新しい階層型強化学習フレームワークを提案する。
我々のメタポリシーは次の最適状態の操作を試み、実際の動作は逆ダイナミクスモデルによって生成される。
我々のフレームワークでは、広く利用可能な州のみのデモンストレーションを模倣学習に効果的に活用することができる。
論文 参考訳(メタデータ) (2020-11-02T15:28:19Z) - Following Instructions by Imagining and Reaching Visual Goals [8.19944635961041]
本研究では,空間的推論を用いて時間的に拡張されたタスクを学習するための新しいフレームワークを提案する。
本フレームワークは生の画素画像上で動作し,事前の言語的知識や知覚的知識を前提とせず,本質的なモチベーションを通じて学習する。
シミュレーションによる対話型3D環境において,ロボットアームを用いた2つの環境で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-01-25T23:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。