論文の概要: A Joint Network for Grasp Detection Conditioned on Natural Language
Commands
- arxiv url: http://arxiv.org/abs/2104.00492v1
- Date: Thu, 1 Apr 2021 14:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:25:27.327175
- Title: A Joint Network for Grasp Detection Conditioned on Natural Language
Commands
- Title(参考訳): 自然言語コマンドに基づく把持検出のための協調ネットワーク
- Authors: Yiye Chen, Ruinian Xu, Yunzhi Lin, and Patricio A. Vela
- Abstract要約: 本研究は,RGB画像およびテキストコマンド入力からの把握を満足するコマンドを直接出力するCommand Grasping Network(CGNet)というモデルを提案する。
提案したネットワークをトレーニングするために、VMRDデータセットに基づいて、基底真理(イメージ、コマンド、グリップ)のデータセットを生成する。
生成したテストセットの実験結果から,CGNetはカスケードされたオブジェクト検索に優れ,検出基準線を大きなマージンで把握することがわかった。
- 参考スコア(独自算出の注目度): 12.391791109470667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of grasping a target object based on a natural language
command query. Previous work primarily focused on localizing the object given
the query, which requires a separate grasp detection module to grasp it. The
cascaded application of two pipelines incurs errors in overlapping multi-object
cases due to ambiguity in the individual outputs. This work proposes a model
named Command Grasping Network(CGNet) to directly output command satisficing
grasps from RGB image and textual command inputs. A dataset with ground truth
(image, command, grasps) tuple is generated based on the VMRD dataset to train
the proposed network. Experimental results on the generated test set show that
CGNet outperforms a cascaded object-retrieval and grasp detection baseline by a
large margin. Three physical experiments demonstrate the functionality and
performance of CGNet.
- Abstract(参考訳): 自然言語のコマンドクエリに基づいて対象オブジェクトを把握するタスクについて検討する。
以前の作業は主に、クエリが与えられたオブジェクトをローカライズすることに焦点を当てていた。
2つのパイプラインのカスケード適用は、個々の出力のあいまいさによって重複する複数オブジェクトのケースでエラーを発生させる。
本研究は,RGB画像およびテキストコマンド入力からの把握を満足するコマンドを直接出力するCommand Grasping Network(CGNet)というモデルを提案する。
vmrdデータセットに基づいて、基底真理(画像、コマンド、把持)タプルを持つデータセットを生成し、提案ネットワークをトレーニングする。
生成したテストセットの実験結果から,CGNetはカスケードされたオブジェクト検索に優れ,検出基準線を大きなマージンで把握することがわかった。
3つの物理実験はCGNetの機能と性能を示す。
関連論文リスト
- TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - RU-Net: Regularized Unrolling Network for Scene Graph Generation [92.95032610978511]
シーングラフ生成(SGG)は、オブジェクトを検出し、各オブジェクト間の関係を予測することを目的としている。
既存のSGG法は,(1)あいまいな対象表現,2)関係予測の多様性の低下など,いくつかの問題に悩まされることが多い。
両問題に対処する正規化アンローリングネットワーク(RU-Net)を提案する。
論文 参考訳(メタデータ) (2022-05-03T04:21:15Z) - FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。
我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。
エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。