論文の概要: LanguageRefer: Spatial-Language Model for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2107.03438v1
- Date: Wed, 7 Jul 2021 18:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:46:06.740163
- Title: LanguageRefer: Spatial-Language Model for 3D Visual Grounding
- Title(参考訳): LanguageRefer:3次元視覚グラウンドのための空間言語モデル
- Authors: Junha Roh, Karthik Desingh, Ali Farhadi, Dieter Fox
- Abstract要約: 3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
- 参考スコア(独自算出の注目度): 72.7618059299306
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To realize robots that can understand human instructions and perform
meaningful tasks in the near future, it is important to develop learned models
that can understand referential language to identify common objects in
real-world 3D scenes. In this paper, we develop a spatial-language model for a
3D visual grounding problem. Specifically, given a reconstructed 3D scene in
the form of a point cloud with 3D bounding boxes of potential object
candidates, and a language utterance referring to a target object in the scene,
our model identifies the target object from a set of potential candidates. Our
spatial-language model uses a transformer-based architecture that combines
spatial embedding from bounding-box with a finetuned language embedding from
DistilBert and reasons among the objects in the 3D scene to find the target
object. We show that our model performs competitively on visio-linguistic
datasets proposed by ReferIt3D. We provide additional analysis of performance
in spatial reasoning tasks decoupled from perception noise, the effect of
view-dependent utterances in terms of accuracy, and view-point annotations for
potential robotics applications.
- Abstract(参考訳): 人間の指示を理解でき、近い将来に有意義なタスクを遂行できるロボットを実現するためには、実世界の3Dシーンで共通の物体を識別するための参照言語を理解可能な学習モデルを開発することが重要である。
本稿では,3次元視覚接地問題に対する空間言語モデルを提案する。
具体的には、潜在的対象候補の3次元有界ボックスを備えた点雲の形で再構成された3次元シーンと、シーン内の対象対象に言及する言語発話とを考慮し、対象対象候補の集合から対象対象対象を識別する。
我々の空間言語モデルは、境界ボックスからの空間埋め込みと DistilBert から埋め込まれた微調整言語を結合したトランスフォーマーベースアーキテクチャを使用し、3D シーンのオブジェクト間の理由から対象物を見つける。
このモデルは, referit3d が提案する visio-linguistic データセット上での競合性を示す。
知覚雑音から切り離された空間的推論タスクの性能、精度の観点からの視点依存発話の影響、ロボット工学応用のための視点アノテーションのさらなる分析を行う。
関連論文リスト
- Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-02-13T15:18:27Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。