論文の概要: 3D Whole-body Grasp Synthesis with Directional Controllability
- arxiv url: http://arxiv.org/abs/2408.16770v1
- Date: Thu, 29 Aug 2024 17:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 12:41:39.449572
- Title: 3D Whole-body Grasp Synthesis with Directional Controllability
- Title(参考訳): 方向制御性を有する3次元全体グラフ合成
- Authors: Georgios Paschalidis, Romana Wilschut, Dimitrije Antić, Omid Taheri, Dimitrios Tzionas,
- Abstract要約: 物体をリアルに把握する3次元体全体を合成するCWGraspを提案する。
CWGraspは「遅すぎる」ではなく「早期オン」という幾何学に基づく推論を行い、推論のためのリッチな「制御」信号を提供する。
GRABとReplicaGraspのデータセットを評価した。
- 参考スコア(独自算出の注目度): 8.700667342027675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing 3D whole-bodies that realistically grasp objects is useful for animation, mixed reality, and robotics. This is challenging, because the hands and body need to look natural w.r.t. each other, the grasped object, as well as the local scene (i.e., a receptacle supporting the object). Only recent work tackles this, with a divide-and-conquer approach; it first generates a "guiding" right-hand grasp, and then searches for bodies that match this. However, the guiding-hand synthesis lacks controllability and receptacle awareness, so it likely has an implausible direction (i.e., a body can't match this without penetrating the receptacle) and needs corrections through major post-processing. Moreover, the body search needs exhaustive sampling and is expensive. These are strong limitations. We tackle these with a novel method called CWGrasp. Our key idea is that performing geometry-based reasoning "early on," instead of "too late," provides rich "control" signals for inference. To this end, CWGrasp first samples a plausible reaching-direction vector (used later for both the arm and hand) from a probabilistic model built via raycasting from the object and collision checking. Then, it generates a reaching body with a desired arm direction, as well as a "guiding" grasping hand with a desired palm direction that complies with the arm's one. Eventually, CWGrasp refines the body to match the "guiding" hand, while plausibly contacting the scene. Notably, generating already-compatible "parts" greatly simplifies the "whole." Moreover, CWGrasp uniquely tackles both right- and left-hand grasps. We evaluate on the GRAB and ReplicaGrasp datasets. CWGrasp outperforms baselines, at lower runtime and budget, while all components help performance. Code and models will be released.
- Abstract(参考訳): 物体をリアルに把握する3D体全体を合成することは、アニメーション、混合現実、ロボット工学に有用である。
これは、手と体が互いに自然にw.r.t.t.に見え、つかまれた物体が、局所的なシーン(つまり、物体を支える受容体)である必要があるためである。
直近の研究では、まず右利きの「ガイド」を発生させ、次にこれと一致する身体を探索する。
しかし、ガイドハンド合成は制御性や受容体の認識を欠いているため、不明瞭な方向(つまり、体は受容体を浸透させることなくこれと一致できない)を持ち、主要な後処理による修正が必要である。
さらに、ボディサーチには徹底的なサンプリングが必要であり、高価である。
これらは強い制限です。
我々はCWGraspと呼ばれる新しい手法でこれらに取り組む。
我々のキーとなる考え方は、幾何に基づく推論を「早め」ではなく「早め」に実行し、推論のためにリッチな「制御」信号を提供するというものである。
この目的のために、CWGraspはまず、物体からのレイキャストと衝突チェックによって構築された確率モデルから、可塑性リーチ方向ベクトル(後に腕と手の両方に使用される)をサンプリングした。
そして、所望の腕方向の到達体と、所望の手のひら方向の「ガイド」握り手を生成し、腕のそれに対応する。
最終的に、CWGraspは身体を洗練して「ガイド」の手と一致するようにし、シーンに確実に接触する。
注目すべきは、すでに互換性のある"パーツ"の生成が"全体"を大幅に単純化することである。
さらに、CWGraspは左右両方のグリップに特化している。
GRABおよびReplicaGraspデータセットの評価を行った。
CWGraspは、ランタイムと予算の低さでベースラインを上回り、すべてのコンポーネントがパフォーマンスに役立ちます。
コードとモデルはリリースされる。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - TARGO: Benchmarking Target-driven Object Grasping under Occlusions [39.970680093124145]
我々はまず,Occlusionsの下でTARGOという,TARget駆動型グラフ作成のための新しいベンチマークデータセットを構築した。
我々は5つのグリップモデルを評価し、現在のSOTAモデルでさえ、閉塞レベルが大きくなると悩むことを見出した。
本稿では, TARGO-Net と呼ばれる形状完備化モジュールを含む変圧器を用いた把握モデルを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:47:45Z) - CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding [23.885017062031217]
3Dビジュアルグラウンドティングは、発話によって条件付けられた3Dシーンでオブジェクトをローカライズする機能である。
既存のほとんどのメソッドは参照ヘッドを使って参照オブジェクトを直接ローカライズし、複雑なシナリオで失敗する。
本稿では,まずアンカーの連鎖と最終目標を予測し,シークエンス・ツー・シーケンスのSeq2Seqタスクとして3次元視覚接地問題を定式化する。
論文 参考訳(メタデータ) (2023-10-10T00:07:25Z) - PoSynDA: Multi-Hypothesis Pose Synthesis Domain Adaptation for Robust 3D
Human Pose Estimation [31.123581504322825]
既存の3Dポーズ推定器は、トレーニングセットに2D-3Dポーズペアが欠如しているため、新しいデータセットに適応する際の課題に直面している。
textitMulti-Hypothesis textbfPose textbfSynthesis textbfDomain textbfAdaptation (textbfPoSynDA) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T16:57:25Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Few-shot Class-incremental Learning for 3D Point Cloud Objects [11.267975876074706]
FSCIL(Few-shot class-incremental Learning)は、新しいクラスのセットのためにベースクラスでトレーニングされたモデルを段階的に微調整することを目的としている。
FSCILの最近の取り組みは、主に2次元画像データに基づいてこの問題に対処している。
カメラ技術の進歩により、3Dポイントのクラウドデータがこれまで以上に利用できるようになった。
論文 参考訳(メタデータ) (2022-05-30T16:33:53Z) - POCO: Point Convolution for Surface Reconstruction [92.22371813519003]
入射ニューラルネットワークは点雲からの表面再構成に成功している。
それらの多くは、オブジェクトやシーン全体を1つの潜伏ベクトルにエンコードするときにスケーラビリティの問題に直面します。
本稿では,各入力点における点雲畳み込みと潜在ベクトルの計算を提案する。
論文 参考訳(メタデータ) (2022-01-05T21:26:18Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。