論文の概要: Robot Object Retrieval with Contextual Natural Language Queries
- arxiv url: http://arxiv.org/abs/2006.13253v1
- Date: Tue, 23 Jun 2020 18:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:22:23.338486
- Title: Robot Object Retrieval with Contextual Natural Language Queries
- Title(参考訳): 文脈自然言語クエリを用いたロボットオブジェクト検索
- Authors: Thao Nguyen, Nakul Gopalan, Roma Patel, Matt Corsaro, Ellie Pavlick,
Stefanie Tellex
- Abstract要約: 我々は,それらの使用法の記述に基づいてオブジェクトを検索するモデルを開発した。
我々のモデルは、動詞句で指定されたオブジェクトの使用からオブジェクトの外観を直接予測する。
言語コマンドに存在する文脈情報に基づいて、我々のモデルは未知のオブジェクトクラスや未知の名詞に一般化することができる。
- 参考スコア(独自算出の注目度): 26.88600852700681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language object retrieval is a highly useful yet challenging task for
robots in human-centric environments. Previous work has primarily focused on
commands specifying the desired object's type such as "scissors" and/or visual
attributes such as "red," thus limiting the robot to only known object classes.
We develop a model to retrieve objects based on descriptions of their usage.
The model takes in a language command containing a verb, for example "Hand me
something to cut," and RGB images of candidate objects and selects the object
that best satisfies the task specified by the verb. Our model directly predicts
an object's appearance from the object's use specified by a verb phrase. We do
not need to explicitly specify an object's class label. Our approach allows us
to predict high level concepts like an object's utility based on the language
query. Based on contextual information present in the language commands, our
model can generalize to unseen object classes and unknown nouns in the
commands. Our model correctly selects objects out of sets of five candidates to
fulfill natural language commands, and achieves an average accuracy of 62.3% on
a held-out test set of unseen ImageNet object classes and 53.0% on unseen
object classes and unknown nouns. Our model also achieves an average accuracy
of 54.7% on unseen YCB object classes, which have a different image
distribution from ImageNet objects. We demonstrate our model on a KUKA LBR iiwa
robot arm, enabling the robot to retrieve objects based on natural language
descriptions of their usage. We also present a new dataset of 655 verb-object
pairs denoting object usage over 50 verbs and 216 object classes.
- Abstract(参考訳): 自然言語オブジェクトの検索は、人間中心環境におけるロボットにとって非常に有用だが困難なタスクである。
これまでの作業は、主に"scissors"や"red"のような視覚的属性など、望ましいオブジェクトの型を指定するコマンドに焦点を当てており、ロボットは既知のオブジェクトクラスのみに制限されている。
我々は,オブジェクトの使用方法の説明に基づいてオブジェクトを取得するモデルを開発した。
モデルは動詞を含む言語コマンド、例えば"hand me something to cut"と候補オブジェクトのrgbイメージを取り込んで、動詞によって指定されたタスクを最も満足するオブジェクトを選択する。
我々のモデルは、動詞句で指定されたオブジェクトの使用からオブジェクトの外観を直接予測する。
オブジェクトのクラスラベルを明示的に指定する必要はありません。
私たちのアプローチでは、言語クエリに基づいてオブジェクトのユーティリティのような高レベルな概念を予測できます。
言語コマンドに存在する文脈情報に基づいて、我々のモデルはコマンドの未確認オブジェクトクラスと未知の名詞に一般化することができる。
我々のモデルは、自然言語コマンドを満たす5つの候補からオブジェクトを正しく選択し、未確認のImageNetオブジェクトクラスと未知の名詞で保持されたテストセット上で平均62.3%の精度を達成する。
また、画像ネットオブジェクトとは異なる画像分布を持つ未確認YCBオブジェクトクラスでは、平均54.7%の精度が得られる。
我々は,KUKA LBR Iiwaロボットアームを用いて,その使用法を自然言語で記述したオブジェクトの検索を行う。
また,50の動詞と216のオブジェクトクラスを対象とする655の動詞オブジェクトペアのデータセットも提示した。
関連論文リスト
- Skill Generalization with Verbs [20.90116318432194]
ロボットは人間が発する自然言語コマンドを理解できることが必須である。
本稿では,動詞を用いた新しいオブジェクトに対する操作スキルの一般化手法を提案する。
実ロボット上で2つの異なる対象カテゴリの新規インスタンスに適用した5つの動詞コマンドの実行に有効なトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-18T02:12:18Z) - Which One? Leveraging Context Between Objects and Multiple Views for Language Grounding [77.26626173589746]
文脈内接地に対する多視点的アプローチ(MAGiC)を提案する。
2つの類似したオブジェクトを区別する言語に基づくオブジェクト参照を選択する。
SNAREオブジェクト参照タスクの最先端モデルよりも、相対誤差を12.9%削減する。
論文 参考訳(メタデータ) (2023-11-12T00:21:58Z) - ShapeShift: Superquadric-based Object Pose Estimation for Robotic
Grasping [85.38689479346276]
現在の技術は参照3Dオブジェクトに大きく依存しており、その一般化性を制限し、新しいオブジェクトカテゴリに拡張するのにコストがかかる。
本稿では,オブジェクトに適合するプリミティブな形状に対してオブジェクトのポーズを予測する,オブジェクトのポーズ推定のためのスーパークワッドリックベースのフレームワークであるShapeShiftを提案する。
論文 参考訳(メタデータ) (2023-04-10T20:55:41Z) - DoUnseen: Tuning-Free Class-Adaptive Object Detection of Unseen Objects
for Robotic Grasping [1.6317061277457001]
我々は、微調整を必要としないオブジェクト検出器を開発し、オブジェクトのいくつかの画像をキャプチャすることで、任意のオブジェクトをクラスとして追加できる。
クラス適応型オブジェクト検出器を未知のデータセット上で評価し、それらのデータセット上で訓練されたMask R-CNNと比較する。
論文 参考訳(メタデータ) (2023-04-06T02:45:39Z) - Learning 6-DoF Object Poses to Grasp Category-level Objects by Language
Instructions [74.63313641583602]
本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。
我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。
言語誘導型6-DoFカテゴリーレベルの物体位置定位モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T04:25:14Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Few-shot Object Grounding and Mapping for Natural Language Robot
Instruction Following [15.896892723068932]
本稿では,ロボットのポリシーを学習して自然言語の指示に従うという課題について考察する。
本稿では,拡張現実データから学習した数発の言語条件オブジェクトグラウンドティング手法を提案する。
オブジェクトの位置とその指示された使用を符号化した学習地図表現を提示し、この数発のグラウンドアウトプットから構築する。
論文 参考訳(メタデータ) (2020-11-14T20:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。