論文の概要: Language Grounding with 3D Objects
- arxiv url: http://arxiv.org/abs/2107.12514v1
- Date: Mon, 26 Jul 2021 23:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:58:47.433239
- Title: Language Grounding with 3D Objects
- Title(参考訳): 3Dオブジェクトによる言語接地
- Authors: Jesse Thomason, Mohit Shridhar, Yonatan Bisk, Chris Paxton, Luke
Zettlemoyer
- Abstract要約: 本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 60.67796160959387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Seemingly simple natural language requests to a robot are generally
underspecified, for example "Can you bring me the wireless mouse?" When viewing
mice on the shelf, the number of buttons or presence of a wire may not be
visible from certain angles or positions. Flat images of candidate mice may not
provide the discriminative information needed for "wireless". The world, and
objects in it, are not flat images but complex 3D shapes. If a human requests
an object based on any of its basic properties, such as color, shape, or
texture, robots should perform the necessary exploration to accomplish the
task. In particular, while substantial effort and progress has been made on
understanding explicitly visual attributes like color and category,
comparatively little progress has been made on understanding language about
shapes and contours. In this work, we introduce a novel reasoning task that
targets both visual and non-visual language about 3D objects. Our new
benchmark, ShapeNet Annotated with Referring Expressions (SNARE), requires a
model to choose which of two objects is being referenced by a natural language
description. We introduce several CLIP-based models for distinguishing objects
and demonstrate that while recent advances in jointly modeling vision and
language are useful for robotic language understanding, it is still the case
that these models are weaker at understanding the 3D nature of objects --
properties which play a key role in manipulation. In particular, we find that
adding view estimation to language grounding models improves accuracy on both
SNARE and when identifying objects referred to in language on a robot platform.
- Abstract(参考訳): 一見単純な自然言語によるロボットへの要求は一般に過小評価されています。
棚の上のマウスを見るとき、ボタンの数やワイヤーの存在は特定の角度や位置から見ることはできない。
候補マウスのフラット画像は「ワイヤーレス」に必要な識別情報を提供できない可能性がある。
世界とその中の物体は、平らなイメージではなく、複雑な3D形状である。
人間が色、形、テクスチャなどの基本的な特性に基づいてオブジェクトを要求する場合、ロボットはそのタスクを達成するために必要な探索を行う必要がある。
特に、色やカテゴリーなどの視覚的属性を明確に理解するために、かなりの努力と進歩がなされてきたが、形状や輪郭についての言語理解については、比較的進歩が進んでいない。
本研究では、3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新しい推論タスクを提案する。
新しいベンチマークであるShapeNet Annotated with Referring Expressions (SNARE)では、自然言語記述によって参照されている2つのオブジェクトのいずれかを選択するモデルが必要です。
物体を識別するためのクリップベースモデルをいくつか紹介し,近年のロボット言語理解における視覚と言語の共同モデリングの進歩は有用であるが,それでもなお,物体の3次元的性質の理解において弱く,操作において重要な役割を担っていることを実証する。
特に,言語基盤モデルにビュー推定を追加することで,SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
関連論文リスト
- Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation [44.58709274218105]
この研究は、蒸留された特徴場を利用して2次元基礎モデルのリッチなセマンティクスと正確な3次元幾何学を組み合わせることにより、ロボット操作のための2次元から3次元のギャップを橋渡しする。
そこで本研究では,これらの空間的および意味的先行性を利用した6-DOFの把握と配置のための数ショットの学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:59:14Z) - Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-02-13T15:18:27Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。