論文の概要: Target-Oriented Object Grasping via Multimodal Human Guidance
- arxiv url: http://arxiv.org/abs/2408.11138v1
- Date: Tue, 20 Aug 2024 18:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 21:16:53.893957
- Title: Target-Oriented Object Grasping via Multimodal Human Guidance
- Title(参考訳): マルチモーダル・ヒューマン・ガイダンスによる目標指向オブジェクト・グラッピング
- Authors: Pengwei Xie, Siang Chen, Dingchang Hu, Yixiang Dai, Kaiqin Yang, Guijin Wang,
- Abstract要約: 従来の把握検出手法は、シーン全体を解析して把握を予測し、冗長性と非効率性をもたらす。
本研究では,目標参照視点から6-DoFのグリップ検出を再検討し,TOGNet(Target-Oriented Grasp Network)を提案する。
TOGNetは特に、より効率的に把握を予測するために、ローカルでオブジェクトに依存しない領域パッチをターゲットにしている。
- 参考スコア(独自算出の注目度): 6.031799490542892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of human-robot interaction and collaboration scenarios, robotic grasping still encounters numerous challenges. Traditional grasp detection methods generally analyze the entire scene to predict grasps, leading to redundancy and inefficiency. In this work, we reconsider 6-DoF grasp detection from a target-referenced perspective and propose a Target-Oriented Grasp Network (TOGNet). TOGNet specifically targets local, object-agnostic region patches to predict grasps more efficiently. It integrates seamlessly with multimodal human guidance, including language instructions, pointing gestures, and interactive clicks. Thus our system comprises two primary functional modules: a guidance module that identifies the target object in 3D space and TOGNet, which detects region-focal 6-DoF grasps around the target, facilitating subsequent motion planning. Through 50 target-grasping simulation experiments in cluttered scenes, our system achieves a success rate improvement of about 13.7%. In real-world experiments, we demonstrate that our method excels in various target-oriented grasping scenarios.
- Abstract(参考訳): 人間とロボットの相互作用やコラボレーションのシナリオでは、ロボットの把握は多くの課題に直面している。
従来の把握検出手法は、一般的にシーン全体を解析して把握を予測し、冗長性と非効率性をもたらす。
本研究では,ターゲット参照視点から6-DoFのグリップ検出を再検討し,TOGNet(Target-Oriented Grasp Network)を提案する。
TOGNetは特に、より効率的に把握を予測するために、ローカルでオブジェクトに依存しない領域パッチをターゲットにしている。
言語指示、ポインティングジェスチャ、インタラクティブなクリックなど、マルチモーダルなヒューマンガイダンスとシームレスに統合される。
そこで本システムは,3次元空間内の対象物体を識別する誘導モジュールと,その周辺領域の6-DoFを検知し,その後の動作計画を容易にするTOGNetの2つの主要機能モジュールから構成される。
乱雑な場面における50のターゲットグラスピングシミュレーション実験を通じて,本システムは約13.7%の成功率向上を実現している。
実世界の実験において,本手法は様々な対象指向の把握シナリオに優れることを示した。
関連論文リスト
- Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。
提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文 参考訳(メタデータ) (2024-07-22T16:22:28Z) - Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance [13.246380364455494]
乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。
提案した負のプロンプト戦略は、望ましくない物体から遠ざかりながら、検出プロセスを所望の物体に向ける。
そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。
論文 参考訳(メタデータ) (2024-07-18T18:24:51Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Self-Supervised Interactive Object Segmentation Through a
Singulation-and-Grasping Approach [9.029861710944704]
本稿では,新しいオブジェクトと対話し,各オブジェクトのトレーニングラベルを収集するロボット学習手法を提案する。
Singulation-and-Grasping(SaG)ポリシは、エンドツーエンドの強化学習を通じてトレーニングされる。
本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。
論文 参考訳(メタデータ) (2022-07-19T15:01:36Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Tracking by Joint Local and Global Search: A Target-aware Attention
based Approach [63.50045332644818]
本研究では、ロバストな追跡のための局所的・グローバルな共同探索を行うための新たな目標認識型アテンション機構(TANet)を提案する。
具体的には、ターゲットオブジェクトパッチと連続ビデオフレームの特徴を抽出し、それらをデコーダネットワークに追従して、ターゲットを意識したグローバルアテンションマップを生成する。
追跡手順において、ロバストな追跡のための候補探索領域を探索することにより、ターゲット認識の注意を複数のトラッカーと統合する。
論文 参考訳(メタデータ) (2021-06-09T06:54:15Z) - PDNet: Towards Better One-stage Object Detection with Prediction
Decoupling [37.83405509385431]
PDNetと呼ばれる予測ターゲット分離検出器を提案し,より柔軟な検出パラダイムを確立する。
バックボーンは1つのResNeXt-64x4d-101で、検出器はシングルスケールテストで48.7 APを達成した。
論文 参考訳(メタデータ) (2021-04-28T16:48:04Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Dynamic Attention guided Multi-Trajectory Analysis for Single Object
Tracking [62.13213518417047]
動的注意誘導型マルチ軌道追跡戦略を考案し,さらにダイナミクスを導入することを提案する。
特に、複数のターゲットテンプレートを含む動的外観モデルを構築し、それぞれが新しいフレーム内のターゲットを特定するのに独自の注意を払っています。
シーケンス全体にまたがった後、マルチ軌道選択ネットワークを導入し、トラッキング性能を向上させた最適な軌道を見つけます。
論文 参考訳(メタデータ) (2021-03-30T05:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。