論文の概要: Language Grounding with 3D Objects
- arxiv url: http://arxiv.org/abs/2107.12514v1
- Date: Mon, 26 Jul 2021 23:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:58:47.433239
- Title: Language Grounding with 3D Objects
- Title(参考訳): 3Dオブジェクトによる言語接地
- Authors: Jesse Thomason, Mohit Shridhar, Yonatan Bisk, Chris Paxton, Luke
Zettlemoyer
- Abstract要約: 本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 60.67796160959387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Seemingly simple natural language requests to a robot are generally
underspecified, for example "Can you bring me the wireless mouse?" When viewing
mice on the shelf, the number of buttons or presence of a wire may not be
visible from certain angles or positions. Flat images of candidate mice may not
provide the discriminative information needed for "wireless". The world, and
objects in it, are not flat images but complex 3D shapes. If a human requests
an object based on any of its basic properties, such as color, shape, or
texture, robots should perform the necessary exploration to accomplish the
task. In particular, while substantial effort and progress has been made on
understanding explicitly visual attributes like color and category,
comparatively little progress has been made on understanding language about
shapes and contours. In this work, we introduce a novel reasoning task that
targets both visual and non-visual language about 3D objects. Our new
benchmark, ShapeNet Annotated with Referring Expressions (SNARE), requires a
model to choose which of two objects is being referenced by a natural language
description. We introduce several CLIP-based models for distinguishing objects
and demonstrate that while recent advances in jointly modeling vision and
language are useful for robotic language understanding, it is still the case
that these models are weaker at understanding the 3D nature of objects --
properties which play a key role in manipulation. In particular, we find that
adding view estimation to language grounding models improves accuracy on both
SNARE and when identifying objects referred to in language on a robot platform.
- Abstract(参考訳): 一見単純な自然言語によるロボットへの要求は一般に過小評価されています。
棚の上のマウスを見るとき、ボタンの数やワイヤーの存在は特定の角度や位置から見ることはできない。
候補マウスのフラット画像は「ワイヤーレス」に必要な識別情報を提供できない可能性がある。
世界とその中の物体は、平らなイメージではなく、複雑な3D形状である。
人間が色、形、テクスチャなどの基本的な特性に基づいてオブジェクトを要求する場合、ロボットはそのタスクを達成するために必要な探索を行う必要がある。
特に、色やカテゴリーなどの視覚的属性を明確に理解するために、かなりの努力と進歩がなされてきたが、形状や輪郭についての言語理解については、比較的進歩が進んでいない。
本研究では、3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新しい推論タスクを提案する。
新しいベンチマークであるShapeNet Annotated with Referring Expressions (SNARE)では、自然言語記述によって参照されている2つのオブジェクトのいずれかを選択するモデルが必要です。
物体を識別するためのクリップベースモデルをいくつか紹介し,近年のロボット言語理解における視覚と言語の共同モデリングの進歩は有用であるが,それでもなお,物体の3次元的性質の理解において弱く,操作において重要な役割を担っていることを実証する。
特に,言語基盤モデルにビュー推定を追加することで,SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
関連論文リスト
- Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。
Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。
提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-04-30T02:48:20Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-02-13T15:18:27Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。