論文の概要: SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models
- arxiv url: http://arxiv.org/abs/2504.18684v1
- Date: Fri, 25 Apr 2025 20:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.941871
- Title: SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models
- Title(参考訳): SORT3D:大規模言語モデルを用いたゼロショット3次元グラウンド化のための空間オブジェクト中心推論ツールボックス
- Authors: Nader Zantout, Haochen Zhang, Pujith Kachana, Jinkai Qiu, Ji Zhang, Wenshan Wang,
- Abstract要約: SORT3Dは2Dデータからリッチなオブジェクト属性を利用し、大規模言語モデルの能力とAsベースの空間推論ツールボックスをマージするアプローチである。
2つのベンチマークにおいて、複雑なビュー依存のグラウンド化タスクにおいて、SORT3Dが最先端のパフォーマンスを達成することを示す。
私たちはまた、パイプラインを実装して、自動運転車でリアルタイムに実行し、我々のアプローチが、これまで見えなかった現実世界の環境において、オブジェクトゴールナビゲーションに使用できることを実証しています。
- 参考スコア(独自算出の注目度): 9.568997654206823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting object-referential language and grounding objects in 3D with spatial relations and attributes is essential for robots operating alongside humans. However, this task is often challenging due to the diversity of scenes, large number of fine-grained objects, and complex free-form nature of language references. Furthermore, in the 3D domain, obtaining large amounts of natural language training data is difficult. Thus, it is important for methods to learn from little data and zero-shot generalize to new environments. To address these challenges, we propose SORT3D, an approach that utilizes rich object attributes from 2D data and merges a heuristics-based spatial reasoning toolbox with the ability of large language models (LLMs) to perform sequential reasoning. Importantly, our method does not require text-to-3D data for training and can be applied zero-shot to unseen environments. We show that SORT3D achieves state-of-the-art performance on complex view-dependent grounding tasks on two benchmarks. We also implement the pipeline to run real-time on an autonomous vehicle and demonstrate that our approach can be used for object-goal navigation on previously unseen real-world environments. All source code for the system pipeline is publicly released at https://github.com/nzantout/SORT3D .
- Abstract(参考訳): オブジェクト参照言語と接地オブジェクトを空間的関係と属性で3Dで解釈することは、人間と一緒に動作するロボットにとって不可欠である。
しかし、この課題はシーンの多様性、多数のきめ細かいオブジェクト、言語参照の複雑な自由形式の性質のためにしばしば困難である。
さらに,3D領域では,大量の自然言語学習データを取得することは困難である。
したがって、小さなデータから学習し、ゼロショットを新しい環境に一般化することが重要である。
これらの課題に対処するため、我々は2Dデータからリッチなオブジェクト属性を利用し、大規模言語モデル(LLM)を用いて逐次推論を行うためのヒューリスティックスベースの空間推論ツールボックスをマージするアプローチSORT3Dを提案する。
重要なこととして,本手法はトレーニングにテキストから3Dデータを必要としないため,目に見えない環境にゼロショットを適用できる。
2つのベンチマークにおいて、複雑なビュー依存のグラウンド化タスクにおいて、SORT3Dが最先端のパフォーマンスを達成することを示す。
私たちはまた、パイプラインを実装して、自動運転車でリアルタイムに実行し、我々のアプローチが、これまで見えなかった現実世界の環境において、オブジェクトゴールナビゲーションに使用できることを実証しています。
システムパイプラインのソースコードはすべてhttps://github.com/nzantout/SORT3D で公開されている。
関連論文リスト
- IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes [10.139461308573336]
IRef-VLAは、11.5K以上のスキャンされた3D部屋からなる参照グラウンドタスクのための、世界で最大のデータセットである。
我々は,ロバストでインタラクティブなナビゲーションシステムの開発を支援する3Dシーン理解のためのリソースの提供を目指している。
論文 参考訳(メタデータ) (2025-03-20T16:16:10Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations [23.378125393162126]
NS3Dは3Dグラウンドリングのための神経シンボリックな枠組みである。
言語を階層構造を持つプログラムに翻訳し、大きな言語からコードへのモデルを活用する。
データ効率と一般化の設定では、パフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2023-03-23T17:50:40Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - 3D Annotation Of Arbitrary Objects In The Wild [0.0]
SLAM, 3D再構成, 3D-to-2D幾何に基づくデータアノテーションパイプラインを提案する。
このパイプラインは、任意のオブジェクトのピクセル単位のアノテーションとともに、3Dおよび2Dバウンディングボックスを作成することができる。
以上の結果から, セマンティックセグメンテーションと2次元バウンディングボックス検出において, 約90%のインターセクション・オーバー・ユニオン(IoU)が一致していることがわかった。
論文 参考訳(メタデータ) (2021-09-15T09:00:56Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。