Fugu-MT 論文翻訳(概要): DualAfford: Learning Collaborative Visual Affordance for Dual-gripper Object Manipulation

論文の概要: DualAfford: Learning Collaborative Visual Affordance for Dual-gripper Object Manipulation

arxiv url: http://arxiv.org/abs/2207.01971v1
Date: Tue, 5 Jul 2022 11:30:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-06 15:23:25.338569
Title: DualAfford: Learning Collaborative Visual Affordance for Dual-gripper Object Manipulation
Title（参考訳）: dualafford:デュアルグリッパーオブジェクト操作のための協調視覚支援学習
Authors: Yan Zhao, Ruihai Wu, Zhehuan Chen, Yourong Zhang, Qingnan Fan, Kaichun Mo, Hao Dong
Abstract要約: そこで我々は,DualAffordという新しい学習フレームワークを提案する。この手法の中核となる設計は、2つのグリップの二次問題を2つの非絡み合った相互接続サブタスクに還元し、効率的な学習を行うことである。
参考スコア（独自算出の注目度）: 14.964836973282594
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is essential yet challenging for future home-assistant robots to understand and manipulate diverse 3D objects in daily human environments. Towards building scalable systems that can perform diverse manipulation tasks over various 3D shapes, recent works have advocated and demonstrated promising results learning visual actionable affordance, which labels every point over the input 3D geometry with an action likelihood of accomplishing the downstream task (e.g., pushing or picking-up). However, these works only studied single-gripper manipulation tasks, yet many real-world tasks require two hands to achieve collaboratively. In this work, we propose a novel learning framework, DualAfford, to learn collaborative affordance for dual-gripper manipulation tasks. The core design of the approach is to reduce the quadratic problem for two grippers into two disentangled yet interconnected subtasks for efficient learning. Using the large-scale PartNet-Mobility and ShapeNet datasets, we set up four benchmark tasks for dual-gripper manipulation. Experiments prove the effectiveness and superiority of our method over three baselines. Additional results and videos can be found at https://hyperplane-lab.github.io/DualAfford .
Abstract（参考訳）: 未来のホームアシストロボットにとって、日々の環境において多様な3Dオブジェクトを理解し、操作することが不可欠である。様々な3D形状で多様な操作タスクを実行できるスケーラブルなシステムの構築に向けて、最近の研究は、入力された3D幾何学上のすべての点を下流のタスク(例えば、プッシュまたはピックアップ)を達成するアクションの可能性でラベル付けする、視覚的な動作可能な可測性を学ぶ有望な結果を提唱し、実証してきた。しかし、これらの研究はシングルグリッパー操作しか研究しなかったが、現実のタスクの多くは協調的に達成するために両手を必要とする。本研究では,デュアルグリッパー操作タスクの協調的余裕を学ぶための新しい学習フレームワークであるdualaffordを提案する。この手法の中核となる設計は、2つのグリップの二次問題を2つの非絡み合った相互接続サブタスクに還元し、効率的な学習を行うことである。大規模なPartNet-MobilityデータセットとShapeNetデータセットを使用して、デュアルグリッパー操作のための4つのベンチマークタスクを設定した。実験により,提案手法の有効性と優越性が3つのベースラインで証明された。追加の結果とビデオはhttps://hyperplane-lab.github.io/DualAfford で見ることができる。

関連論文リスト

SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending [79.83865372778273]
SkillBlenderは、多目的なヒューマノイドロコ操作のための新しい階層的強化学習フレームワークである。 SkillBlenderは、まずゴール条件付きタスク非依存のプリミティブスキルを事前訓練し、その後、これらのスキルを動的にブレンドして複雑なロコ操作タスクを達成する。また,3つのエボディメント,4つのプリミティブスキル,8つの難解なロコ操作タスクを含む並列的,クロスエボディメント,多種多様なシミュレーションベンチマークであるSkillBenchを紹介した。
論文参考訳（メタデータ） (2025-06-11T03:24:26Z)
VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation [8.882764358932276]
両手の DoF の高さと協調性のため、ロボット工学における両面的な操作は依然として重要な課題である。既存の片手操作技術は、人間のデモンストレーションを利用してRL法を誘導するが、複数のサブスキルを含む複雑な双対タスクに一般化できないことが多い。 VTAO-BiManipは,視覚触覚前訓練と物体理解を組み合わせた新しいフレームワークである。
論文参考訳（メタデータ） (2025-01-07T08:14:53Z)
S2O: Static to Openable Enhancement for Articulated 3D Objects [20.310491257189422]
本稿では,静的な3次元オブジェクトを静的なオブジェクトから生成するS2Oタスクを紹介する。我々の研究は、ロボット操作とAIタスクを具体化するインタラクティブな3Dオブジェクトを効率的に作成することを可能にする。
論文参考訳（メタデータ） (2024-09-27T16:34:13Z)
Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。 GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文参考訳（メタデータ） (2024-07-22T06:12:21Z)
A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。 ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文参考訳（メタデータ） (2024-07-03T16:50:07Z)
Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文参考訳（メタデータ） (2024-03-04T18:59:30Z)
WHU-Synthetic: A Synthetic Perception Dataset for 3-D Multitask Model Research [9.945833036861892]
WHU-Syntheticは、マルチタスク学習用に設計された大規模3D合成認識データセットである。我々は,現実のシナリオにおいて実現が困難である特定のアイデアを実現するために,いくつかの新しい設定を実装している。
論文参考訳（メタデータ） (2024-02-29T11:38:44Z)
The Power of the Senses: Generalizable Manipulation from Vision and Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。 M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文参考訳（メタデータ） (2023-11-02T01:33:00Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。 3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文参考訳（メタデータ） (2023-08-08T01:27:55Z)
Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。 i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文参考訳（メタデータ） (2023-04-03T13:41:35Z)
End-to-End Affordance Learning for Robotic Manipulation [4.405918052597016]
インタラクティブな環境で3Dオブジェクトを操作することの学習は、強化学習において難しい問題であった。視覚的余裕は、効果的に実行可能なセマンティクスを備えたオブジェクト中心の情報提供において、大きな見通しを示してきた。本研究では,RL学習過程において生成した接触情報を用いて視覚的余裕を生かし,興味のある接触マップを予測する。
論文参考訳（メタデータ） (2022-09-26T18:24:28Z)
DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2022-06-17T17:59:45Z)
Learning Object Manipulation Skills via Approximate State Estimation from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文参考訳（メタデータ） (2020-11-13T08:53:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。