論文の概要: RiEMann: Near Real-Time SE(3)-Equivariant Robot Manipulation without Point Cloud Segmentation
- arxiv url: http://arxiv.org/abs/2403.19460v1
- Date: Thu, 28 Mar 2024 14:31:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:54:24.449833
- Title: RiEMann: Near Real-Time SE(3)-Equivariant Robot Manipulation without Point Cloud Segmentation
- Title(参考訳): RiEMann: ポイントクラウドセグメンテーションを使わずに, リアルタイムに近いSE(3)-同変ロボット操作
- Authors: Chongkai Gao, Zhengrong Xue, Shuying Deng, Tianhai Liang, Siqi Yang, Lin Shao, Huazhe Xu,
- Abstract要約: 本稿では,シーンポイントクラウド入力からリアルタイムSE(3)-等価ロボットマニピュレーション模倣学習フレームワークRiEMannを提案する。
ディスクリプタのフィールドマッチングに依存する従来のメソッドと比較して、RiEMannはオブジェクトのセグメンテーションなしで操作するためのオブジェクトのターゲットポーズを直接予測する。
RiEMannは、5から10のデモで操作タスクをスクラッチから学習し、SE(3)変換とターゲットオブジェクトのインスタンスを一般化し、邪魔なオブジェクトの視覚的干渉に抵抗し、ターゲットオブジェクトのほぼリアルタイムのポーズ変更に従う。
- 参考スコア(独自算出の注目度): 20.685168082722534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present RiEMann, an end-to-end near Real-time SE(3)-Equivariant Robot Manipulation imitation learning framework from scene point cloud input. Compared to previous methods that rely on descriptor field matching, RiEMann directly predicts the target poses of objects for manipulation without any object segmentation. RiEMann learns a manipulation task from scratch with 5 to 10 demonstrations, generalizes to unseen SE(3) transformations and instances of target objects, resists visual interference of distracting objects, and follows the near real-time pose change of the target object. The scalable action space of RiEMann facilitates the addition of custom equivariant actions such as the direction of turning the faucet, which makes articulated object manipulation possible for RiEMann. In simulation and real-world 6-DOF robot manipulation experiments, we test RiEMann on 5 categories of manipulation tasks with a total of 25 variants and show that RiEMann outperforms baselines in both task success rates and SE(3) geodesic distance errors on predicted poses (reduced by 68.6%), and achieves a 5.4 frames per second (FPS) network inference speed. Code and video results are available at https://riemann-web.github.io/.
- Abstract(参考訳): 本稿では,シーンポイントクラウド入力からリアルタイムSE(3)-等価ロボットマニピュレーション模倣学習フレームワークRiEMannを提案する。
ディスクリプタのフィールドマッチングに依存する従来のメソッドと比較して、RiEMannはオブジェクトのセグメンテーションなしで操作するためのオブジェクトのターゲットポーズを直接予測する。
RiEMannは、5から10のデモで操作タスクをスクラッチから学習し、SE(3)変換とターゲットオブジェクトのインスタンスを一般化し、邪魔なオブジェクトの視覚的干渉に抵抗し、ターゲットオブジェクトのほぼリアルタイムのポーズ変更に従う。
RiEMannのスケーラブルなアクション空間は、ファウセットを回転させる方向などのカスタム同変アクションの追加を促進する。
シミュレーションおよび実世界の6-DOFロボット操作実験において、25の変種からなる5種類の操作タスクでRiEMannをテストし、予測されたポーズ(68.6%)におけるSE(3)測地距離誤差とタスク成功率の両方でベースラインを上回り、毎秒5.4フレーム(FPS)ネットワーク推論速度を達成することを示した。
コードとビデオの結果はhttps://riemann-web.github.io/.com/で公開されている。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation [29.01984677695523]
本稿では6次元非包括的操作のための強化学習手法であるHybrid Actor-Critic Maps for Manipulation (HACMan)を紹介する。
シミュレーションおよび実世界における6次元オブジェクトポーズアライメントタスクにおけるHACManの評価を行った。
代替アクション表現と比較して、HACManは最高のベースラインの3倍以上の成功率を達成する。
論文 参考訳(メタデータ) (2023-05-06T05:55:27Z) - CabiNet: Scaling Neural Collision Detection for Object Rearrangement
with Procedural Scene Generation [54.68738348071891]
私たちはまず、さまざまな日常環境において、650万以上の散らばったシーン(前よりも桁違いに多い)を生成します。
このデータから合成部分点雲をレンダリングし、それをCabiNetモデルアーキテクチャのトレーニングに使用します。
CabiNetは、オブジェクトとシーンポイントの雲を受け入れる衝突モデルである。
論文 参考訳(メタデータ) (2023-04-18T21:09:55Z) - Neural Descriptor Fields: SE(3)-Equivariant Object Representations for
Manipulation [75.83319382105894]
対象と対象の相対的なポーズを符号化するオブジェクト表現であるニューラル・ディスクリプタ・フィールド(NDF)を提案する。
NDFは、専門家ラベル付きキーポイントに依存しない3D自動エンコーディングタスクを通じて、自己教師型で訓練される。
我々のパフォーマンスは、オブジェクトインスタンスと6-DoFオブジェクトの両方のポーズを一般化し、2Dディスクリプタに依存する最近のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2021-12-09T18:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。