論文の概要: 3EED: Ground Everything Everywhere in 3D
- arxiv url: http://arxiv.org/abs/2511.01755v1
- Date: Mon, 03 Nov 2025 17:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.34193
- Title: 3EED: Ground Everything Everywhere in 3D
- Title(参考訳): 3EED:あらゆる場所を3Dで埋める
- Authors: Rong Li, Yuhao Dong, Tianshuai Hu, Ao Liang, Youquan Liu, Dongyue Lu, Liang Pan, Lingdong Kong, Junwei Liang, Ziwei Liu,
- Abstract要約: 3EEDはマルチプラットフォームでマルチモーダルな3Dグラウンドベンチマークで、RGBとLiDARのデータが車、ドローン、四足歩行プラットフォームから提供されている。
128,000以上のオブジェクトと22,000以上の検証済みの参照表現を、さまざまな屋外シーンにわたって提供しています。
- 参考スコア(独自算出の注目度): 64.28938045702077
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual grounding in 3D is the key for embodied agents to localize language-referred objects in open-world environments. However, existing benchmarks are limited to indoor focus, single-platform constraints, and small scale. We introduce 3EED, a multi-platform, multi-modal 3D grounding benchmark featuring RGB and LiDAR data from vehicle, drone, and quadruped platforms. We provide over 128,000 objects and 22,000 validated referring expressions across diverse outdoor scenes -- 10x larger than existing datasets. We develop a scalable annotation pipeline combining vision-language model prompting with human verification to ensure high-quality spatial grounding. To support cross-platform learning, we propose platform-aware normalization and cross-modal alignment techniques, and establish benchmark protocols for in-domain and cross-platform evaluations. Our findings reveal significant performance gaps, highlighting the challenges and opportunities of generalizable 3D grounding. The 3EED dataset and benchmark toolkit are released to advance future research in language-driven 3D embodied perception.
- Abstract(参考訳): 3Dでの視覚的グラウンド化は、オープンワールド環境で言語参照オブジェクトをローカライズするためのエンボディエージェントの鍵である。
しかし、既存のベンチマークは屋内焦点、単一プラットフォーム制約、小規模に限られている。
車両、ドローン、四足歩行プラットフォームからRGBとLiDARのデータを含むマルチプラットフォームでマルチモーダルな3Dグラウンドベンチマークである3EEDを紹介した。
128,000以上のオブジェクトと22,000以上の検証済みの参照表現を、さまざまな屋外シーンにわたって提供しています。
視覚言語モデルと人間の検証を併用したスケーラブルなアノテーションパイプラインを開発し,高品質な空間接地を実現する。
クロスプラットフォーム学習を支援するために,プラットフォーム対応の正規化とクロスモーダルアライメント手法を提案し,ドメイン内およびクロスプラットフォーム評価のためのベンチマークプロトコルを確立する。
以上の結果から,3次元グラウンド化の課題と機会を浮き彫りにした。
3EEDデータセットとベンチマークツールキットは、言語駆動型3D具体的知覚の将来の研究を促進するためにリリースされた。
関連論文リスト
- Perspective-Invariant 3D Object Detection [6.7936328711743]
複数のプラットフォームから収集されたLiDARデータと3Dバウンディングボックスアノテーションを備えた最初のベンチマークであるPi3DETを紹介する。
我々は、よく研究された車両プラットフォームから他のプラットフォームに知識を伝達する新しいクロスプラットフォーム適応フレームワークを提案する。
クロスプラットフォームシナリオにおける現在の3D検出器のレジリエンスと堅牢性を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2025-07-23T16:29:57Z) - Zero-Shot 3D Visual Grounding from Vision-Language Models [10.81711535075112]
3Dビジュアルグラウンド(3DVG)は、自然言語記述を用いて、3Dシーンで対象物を見つけることを目的としている。
SeeGroundは、2Dビジョンランゲージモデル(VLM)を活用するゼロショット3DVGフレームワークで、3D特有のトレーニングの必要性を回避します。
論文 参考訳(メタデータ) (2025-05-28T14:53:53Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。
大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。
3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文 参考訳(メタデータ) (2023-05-23T09:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。