論文の概要: From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes
- arxiv url: http://arxiv.org/abs/2506.04897v1
- Date: Thu, 05 Jun 2025 11:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.677058
- Title: From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes
- Title(参考訳): オブジェクトからどこにでも:3Dシーンにおけるマルチレベル視覚グラウンドのためのホロスティックベンチマーク
- Authors: Tianxu Wang, Zhuofan Zhang, Ziyu Zhu, Yue Fan, Jing Xiong, Pengxiang Li, Xiaojian Ma, Qing Li,
- Abstract要約: Anywhere3D-Benchは2,632個の表現3D境界ボックスペアからなる総合的な3D視覚的グラウンドベンチマークである。
我々は,大規模言語モデルとともに,最先端の3次元視覚的グラウンドディング手法の評価を行った。
- 参考スコア(独自算出の注目度): 16.38713257618971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D visual grounding has made notable progress in localizing objects within complex 3D scenes. However, grounding referring expressions beyond objects in 3D scenes remains unexplored. In this paper, we introduce Anywhere3D-Bench, a holistic 3D visual grounding benchmark consisting of 2,632 referring expression-3D bounding box pairs spanning four different grounding levels: human-activity areas, unoccupied space beyond objects, objects in the scene, and fine-grained object parts. We assess a range of state-of-the-art 3D visual grounding methods alongside large language models (LLMs) and multimodal LLMs (MLLMs) on Anywhere3D-Bench. Experimental results reveal that space-level and part-level visual grounding pose the greatest challenges: space-level tasks require a more comprehensive spatial reasoning ability, for example, modeling distances and spatial relations within 3D space, while part-level tasks demand fine-grained perception of object composition. Even the best performance model, OpenAI o4-mini, achieves only 23.57% accuracy on space-level tasks and 33.94% on part-level tasks, significantly lower than its performance on area-level and object-level tasks. These findings underscore a critical gap in current models' capacity to understand and reason about 3D scene beyond object-level semantics.
- Abstract(参考訳): 3D画像のグラウンド化は、複雑な3Dシーン内のオブジェクトのローカライズにおいて顕著な進歩を遂げた。
しかし、3Dシーンにおける物体以外の表現の接地は未解明のままである。
本稿では,4つのグラウンドレベルにまたがる2,632個の表現3Dバウンディングボックスペアから成る総合的な3次元グラウンドベンチマークであるAnywhere3D-Benchを紹介する。
我々は,Anywhere3D-Bench上で,大規模言語モデル (LLM) とマルチモーダルLLM (MLLM) とともに,最先端の3Dビジュアルグラウンドディング手法の評価を行った。
空間レベルのタスクは、例えば、3次元空間内の距離と空間関係をモデル化するなど、より包括的な空間推論能力を必要とし、一方、部分レベルのタスクは、オブジェクト構成のきめ細かい認識を必要とする。
最高のパフォーマンスモデルであるOpenAI o4-miniでさえ、空間レベルのタスクでは23.57%、部分レベルのタスクでは33.94%の精度しか達成していない。
これらの結果は、オブジェクトレベルのセマンティクスを超えた3Dシーンを理解し、推論する現在のモデルの能力において、重要なギャップを浮き彫りにした。
関連論文リスト
- Spatial 3D-LLM: Exploring Spatial Awareness in 3D Vision-Language Models [12.545622346725544]
新しい時代は、大規模言語モデル(LLM)を拡張して3Dビジョン言語タスクに取り組むという、エキサイティングな可能性を解き放ちました。
本研究では,3次元視覚言語タスクの空間認識を高めるために設計された3次元MLLMであるSpatial 3D-LLMを提案する。
本稿では,3次元物体距離計測と3次元レイアウト編集の2つの新しいタスクを紹介し,モデルの空間認識能力を評価するために3次元命令データセットであるMODELを構築した。
論文 参考訳(メタデータ) (2025-07-22T12:32:35Z) - SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - ObjVariantEnsemble: Advancing Point Cloud LLM Evaluation in Challenging Scenes with Subtly Distinguished Objects [1.5408065585641535]
3Dシーンの理解は重要な課題であり、近年、エンボディドAIを強化するために、ポイントクラウドの3D表現とテキストとの整合性に関する研究の関心が高まっている。
総合的な3Dベンチマークが欠如しているため、現実世界のシーン、特に微妙に区別されたオブジェクトに挑戦するシーンにおける3Dモデルの能力はいまだに十分に調査されていない。
論文 参考訳(メタデータ) (2024-12-19T13:27:58Z) - Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトによるセグメンテーションを推論するための3次元推論セグメンテーションタスクを提案する。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,複数のオブジェクトのクエリを扱う新しい3D推論ネットワークMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。