論文の概要: IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes
- arxiv url: http://arxiv.org/abs/2503.17406v1
- Date: Thu, 20 Mar 2025 16:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:25.962495
- Title: IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes
- Title(参考訳): IRef-VLA:3次元シーンにおける不完全な言語を用いた対話的参照グラウンドのベンチマーク
- Authors: Haochen Zhang, Nader Zantout, Pujith Kachana, Ji Zhang, Wenshan Wang,
- Abstract要約: IRef-VLAは、11.5K以上のスキャンされた3D部屋からなる参照グラウンドタスクのための、世界で最大のデータセットである。
我々は,ロバストでインタラクティブなナビゲーションシステムの開発を支援する3Dシーン理解のためのリソースの提供を目指している。
- 参考スコア(独自算出の注目度): 10.139461308573336
- License:
- Abstract: With the recent rise of large language models, vision-language models, and other general foundation models, there is growing potential for multimodal, multi-task robotics that can operate in diverse environments given natural language input. One such application is indoor navigation using natural language instructions. However, despite recent progress, this problem remains challenging due to the 3D spatial reasoning and semantic understanding required. Additionally, the language used may be imperfect or misaligned with the scene, further complicating the task. To address this challenge, we curate a benchmark dataset, IRef-VLA, for Interactive Referential Vision and Language-guided Action in 3D Scenes with imperfect references. IRef-VLA is the largest real-world dataset for the referential grounding task, consisting of over 11.5K scanned 3D rooms from existing datasets, 7.6M heuristically generated semantic relations, and 4.7M referential statements. Our dataset also contains semantic object and room annotations, scene graphs, navigable free space annotations, and is augmented with statements where the language has imperfections or ambiguities. We verify the generalizability of our dataset by evaluating with state-of-the-art models to obtain a performance baseline and also develop a graph-search baseline to demonstrate the performance bound and generation of alternatives using scene-graph knowledge. With this benchmark, we aim to provide a resource for 3D scene understanding that aids the development of robust, interactive navigation systems. The dataset and all source code is publicly released at https://github.com/HaochenZ11/IRef-VLA.
- Abstract(参考訳): 近年の大規模言語モデル、視覚言語モデル、その他の基礎モデルの増加に伴い、自然言語入力を与えられた多様な環境で動作可能なマルチモーダル・マルチタスクロボティクスの可能性が高まっている。
そのような応用の1つは、自然言語による屋内ナビゲーションである。
しかし,近年の進歩にもかかわらず,空間的推論や意味的理解が必要とされるため,この問題は依然として困難である。
さらに、使用される言語はシーンに不完全あるいは不整合であり、さらにタスクを複雑にする可能性がある。
この課題に対処するために、不完全な参照を持つ3Dシーンにおける対話的参照ビジョンと言語誘導アクションのためのベンチマークデータセットIRef-VLAをキュレートする。
IRef-VLAは、既存のデータセットから11.5K以上の3D部屋をスキャンし、7.6Mのヒューリスティックに生成されたセマンティックリレーションと4.7Mの参照ステートメントからなる、参照グラウンドタスクのための世界最大の実世界のデータセットである。
私たちのデータセットにはセマンティックオブジェクトやルームアノテーション、シーングラフ、ナビゲート可能な自由空間アノテーションが含まれており、言語が不完全性や曖昧性を持っている文で拡張されています。
我々は,最先端モデルを用いて評価し,性能ベースラインを得ることにより,データセットの一般化性を検証するとともに,シーングラフ知識を用いた性能バウンダリと代替品の生成を示すグラフ検索ベースラインを開発する。
本ベンチマークでは,ロバストでインタラクティブなナビゲーションシステムの開発を支援する3次元シーン理解のためのリソースの提供を目的としている。
データセットとすべてのソースコードはhttps://github.com/HaochenZ11/IRef-VLAで公開されている。
関連論文リスト
- AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding [9.289977174410824]
3Dビジュアルグラウンドティングは、自然言語テキストによって参照される3Dシーンでエンティティをローカライズする。
多様な言語パターンに対して視覚的接地手法を評価するための診断データセットである3D (ViGiL3D) の視覚的接地について紹介する。
論文 参考訳(メタデータ) (2025-01-02T17:20:41Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Can 3D Vision-Language Models Truly Understand Natural Language? [42.73664281910605]
既存の3D-VLモデルは言語入力のスタイルに敏感であり、同じ意味を持つ文を理解するのに苦労するが、異なる変種で書かれる。
本稿では,様々なタスクにまたがって3D-VLモデルを体系的に評価し,異なる言語スタイルのバリエーションを提示した場合のパフォーマンスをベンチマークする言語頑健性タスクを提案する。
包括的評価により,様々な3D-VLタスクにまたがる既存モデルの性能低下が明らかとなった。
最先端の3D-LLMでさえ、同じ文の変種を理解することができない。
論文 参考訳(メタデータ) (2024-03-21T18:02:20Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。