論文の概要: DualAfford: Learning Collaborative Visual Affordance for Dual-gripper
Object Manipulation
- arxiv url: http://arxiv.org/abs/2207.01971v1
- Date: Tue, 5 Jul 2022 11:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 15:23:25.338569
- Title: DualAfford: Learning Collaborative Visual Affordance for Dual-gripper
Object Manipulation
- Title(参考訳): dualafford:デュアルグリッパーオブジェクト操作のための協調視覚支援学習
- Authors: Yan Zhao, Ruihai Wu, Zhehuan Chen, Yourong Zhang, Qingnan Fan, Kaichun
Mo, Hao Dong
- Abstract要約: そこで我々は,DualAffordという新しい学習フレームワークを提案する。
この手法の中核となる設計は、2つのグリップの二次問題を2つの非絡み合った相互接続サブタスクに還元し、効率的な学習を行うことである。
- 参考スコア(独自算出の注目度): 14.964836973282594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is essential yet challenging for future home-assistant robots to
understand and manipulate diverse 3D objects in daily human environments.
Towards building scalable systems that can perform diverse manipulation tasks
over various 3D shapes, recent works have advocated and demonstrated promising
results learning visual actionable affordance, which labels every point over
the input 3D geometry with an action likelihood of accomplishing the downstream
task (e.g., pushing or picking-up). However, these works only studied
single-gripper manipulation tasks, yet many real-world tasks require two hands
to achieve collaboratively. In this work, we propose a novel learning
framework, DualAfford, to learn collaborative affordance for dual-gripper
manipulation tasks. The core design of the approach is to reduce the quadratic
problem for two grippers into two disentangled yet interconnected subtasks for
efficient learning. Using the large-scale PartNet-Mobility and ShapeNet
datasets, we set up four benchmark tasks for dual-gripper manipulation.
Experiments prove the effectiveness and superiority of our method over three
baselines. Additional results and videos can be found at
https://hyperplane-lab.github.io/DualAfford .
- Abstract(参考訳): 未来のホームアシストロボットにとって、日々の環境において多様な3Dオブジェクトを理解し、操作することが不可欠である。
様々な3D形状で多様な操作タスクを実行できるスケーラブルなシステムの構築に向けて、最近の研究は、入力された3D幾何学上のすべての点を下流のタスク(例えば、プッシュまたはピックアップ)を達成するアクションの可能性でラベル付けする、視覚的な動作可能な可測性を学ぶ有望な結果を提唱し、実証してきた。
しかし、これらの研究はシングルグリッパー操作しか研究しなかったが、現実のタスクの多くは協調的に達成するために両手を必要とする。
本研究では,デュアルグリッパー操作タスクの協調的余裕を学ぶための新しい学習フレームワークであるdualaffordを提案する。
この手法の中核となる設計は、2つのグリップの二次問題を2つの非絡み合った相互接続サブタスクに還元し、効率的な学習を行うことである。
大規模なPartNet-MobilityデータセットとShapeNetデータセットを使用して、デュアルグリッパー操作のための4つのベンチマークタスクを設定した。
実験により,提案手法の有効性と優越性が3つのベースラインで証明された。
追加の結果とビデオはhttps://hyperplane-lab.github.io/DualAfford で見ることができる。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。
タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。
ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。
具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。
これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文 参考訳(メタデータ) (2024-03-04T18:59:30Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。
提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。
3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文 参考訳(メタデータ) (2023-08-08T01:27:55Z) - Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文 参考訳(メタデータ) (2023-04-03T13:41:35Z) - End-to-End Affordance Learning for Robotic Manipulation [4.405918052597016]
インタラクティブな環境で3Dオブジェクトを操作することの学習は、強化学習において難しい問題であった。
視覚的余裕は、効果的に実行可能なセマンティクスを備えたオブジェクト中心の情報提供において、大きな見通しを示してきた。
本研究では,RL学習過程において生成した接触情報を用いて視覚的余裕を生かし,興味のある接触マップを予測する。
論文 参考訳(メタデータ) (2022-09-26T18:24:28Z) - DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。
我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。