論文の概要: ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills
- arxiv url: http://arxiv.org/abs/2302.04659v1
- Date: Thu, 9 Feb 2023 14:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 15:34:15.943490
- Title: ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills
- Title(参考訳): maniskill2: 汎用操作スキルのための統一ベンチマーク
- Authors: Jiayuan Gu, Fanbo Xiang, Xuanlin Li, Zhan Ling, Xiqiang Liu, Tongzhou
Mu, Yihe Tang, Stone Tao, Xinyue Wei, Yunchao Yao, Xiaodi Yuan, Pengwei Xie,
Zhiao Huang, Rui Chen, Hao Su
- Abstract要約: 我々は、一般化可能な操作スキルのための次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を紹介する。
ManiSkill2には、2000以上のオブジェクトモデルと4M以上のデモフレームを備えた20の操作タスクファミリが含まれている。
幅広いアルゴリズムをサポートする統一インターフェースと評価プロトコルを定義する。
高速な視覚入力学習アルゴリズムにより、CNNベースのポリシーでサンプルを約2000 FPSで収集することができる。
- 参考スコア(独自算出の注目度): 24.150758623016195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizable manipulation skills, which can be composed to tackle
long-horizon and complex daily chores, are one of the cornerstones of Embodied
AI. However, existing benchmarks, mostly composed of a suite of simulatable
environments, are insufficient to push cutting-edge research works because they
lack object-level topological and geometric variations, are not based on fully
dynamic simulation, or are short of native support for multiple types of
manipulation tasks. To this end, we present ManiSkill2, the next generation of
the SAPIEN ManiSkill benchmark, to address critical pain points often
encountered by researchers when using benchmarks for generalizable manipulation
skills. ManiSkill2 includes 20 manipulation task families with 2000+ object
models and 4M+ demonstration frames, which cover stationary/mobile-base,
single/dual-arm, and rigid/soft-body manipulation tasks with 2D/3D-input data
simulated by fully dynamic engines. It defines a unified interface and
evaluation protocol to support a wide range of algorithms (e.g., classic
sense-plan-act, RL, IL), visual observations (point cloud, RGBD), and
controllers (e.g., action type and parameterization). Moreover, it empowers
fast visual input learning algorithms so that a CNN-based policy can collect
samples at about 2000 FPS with 1 GPU and 16 processes on a regular workstation.
It implements a render server infrastructure to allow sharing rendering
resources across all environments, thereby significantly reducing memory usage.
We open-source all codes of our benchmark (simulator, environments, and
baselines) and host an online challenge open to interdisciplinary researchers.
- Abstract(参考訳): ロングホライズンや複雑な日々の雑用に対処するために構成できる汎用的な操作スキルは、エンボディードAIの基盤の1つである。
しかし、既存のベンチマークは、主にシミュレーション可能な環境で構成されており、オブジェクトレベルのトポロジカルおよび幾何学的なバリエーションが欠けているため、最先端の研究作業を推進するには不十分であり、完全に動的シミュレーションに基づいていないか、複数の操作タスクに対するネイティブサポートが不足している。
この目的のために,次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を提案する。
ManiSkill2には2000以上のオブジェクトモデルを持つ20の操作タスクファミリと4M以上のデモフレームが含まれており、完全に動的エンジンでシミュレーションされた2D/3D入力データによる固定/移動ベース、シングル/デュアルアーム、剛性/ソフトボディ操作タスクをカバーしている。
これは、幅広いアルゴリズム(例えば、classic sense-plan-act、rl、il)、視覚的観察(point cloud、rgbd)、およびコントローラ(例えば、アクションタイプおよびパラメータ化)をサポートする統一インターフェースおよび評価プロトコルを定義している。
さらに、高速なビジュアル入力学習アルゴリズムにより、CNNベースのポリシーで1GPUと16プロセスのサンプルを、通常のワークステーション上で約2000FPSで収集することができる。
レンダリングサーバインフラストラクチャを実装し、すべての環境にわたってレンダリングリソースを共有できるようにし、メモリ使用量を大幅に削減する。
私たちはベンチマークのすべてのコード(シミュレータ、環境、ベースライン)をオープンソースとして公開し、学際研究者にオープンなオンラインチャレンジを開催しています。
関連論文リスト
- ManiSkill3: GPU Parallelized Robotics Simulation and Rendering for Generalizable Embodied AI [27.00155119759743]
ManiSkill3は、汎用的な操作をターゲットとしたコンタクトリッチな物理を備えた、最先端のGPU並列化ロボットシミュレータである。
ManiSkill3は、シミュレーション+レンダリング、異種シミュレーション、ポイントクラウド/ボクセルビジュアル入力など、多くの面でGPU並列化をサポートしている。
論文 参考訳(メタデータ) (2024-10-01T06:10:39Z) - M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place [44.303123422422246]
M2T2は、散らかったシーンの任意のオブジェクトに対して堅牢に動作する異なるタイプの低レベルのアクションを提供する単一のモデルである。
M2T2は、128Kシーンの大規模な合成データセットで訓練され、実際のロボット上でゼロショットのsim2real転送を実現する。
論文 参考訳(メタデータ) (2023-11-02T01:42:52Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - OTOV2: Automatic, Generic, User-Friendly [39.828644638174225]
そこで本研究では,まず,一から1回だけ一般DNNを訓練・圧縮する「OTOv2」を提案する。
OTOv2は、さまざまなディープラーニングアプリケーションに自動でプラグイン可能であり、ユーザによるほとんど最小限のエンジニアリング作業を必要とする。
数値的には,VGG,ResNet,CARN,ConvNeXt,DenseNet,StackedUnetsなど,さまざまなモデルアーキテクチャ上でのOTOv2の汎用性と自律性を示す。
論文 参考訳(メタデータ) (2023-03-13T05:13:47Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Habitat 2.0: Training Home Assistants to Rearrange their Habitat [122.54624752876276]
インタラクティブな3D環境で仮想ロボットを訓練するためのシミュレーションプラットフォームHabitat 2.0(H2.0)を紹介する。
エンボディされたAIスタックのすべてのレベル – データ、シミュレーション、ベンチマークタスク – にコントリビューションを行います。
論文 参考訳(メタデータ) (2021-06-28T05:42:15Z) - Fast Object Segmentation Learning with Kernel-based Methods for Robotics [21.48920421574167]
オブジェクトセグメンテーションは、把握やオブジェクト操作といったタスクを実行するロボットの視覚システムにおいて重要なコンポーネントである。
本稿では,オブジェクトセグメンテーションのための新しいアーキテクチャを提案する。これはこの問題を克服し,最先端の手法で必要とされる時間に匹敵する性能を提供する。
本手法はコンピュータビジョンとロボティクスのコミュニティで広く採用されているYCB-Videoデータセットで検証されている。
論文 参考訳(メタデータ) (2020-11-25T15:07:39Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。