論文の概要: MoniRefer: A Real-world Large-scale Multi-modal Dataset based on Roadside Infrastructure for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2512.24605v1
- Date: Wed, 31 Dec 2025 03:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.561035
- Title: MoniRefer: A Real-world Large-scale Multi-modal Dataset based on Roadside Infrastructure for 3D Visual Grounding
- Title(参考訳): MoniRefer:3Dビジュアルグラウンドのためのロードサイドインフラストラクチャに基づく実世界の大規模マルチモーダルデータセット
- Authors: Panquan Yang, Junfei Huang, Zongzhangbao Yin, Yingsong Hu, Anni Xu, Xinyi Luo, Xueqi Sun, Hai Wu, Sheng Ao, Zhaoxing Zhu, Chenglu Wen, Cheng Wang,
- Abstract要約: 3Dビジュアルグラウンドは、与えられた自然言語文に意味的に対応する3Dポイントクラウドシーンでオブジェクトをローカライズすることを目的としている。
MoniReferは、ロードサイドレベルの3Dビジュアルグラウンドのための、世界初の大規模なマルチモーダルデータセットである。
- 参考スコア(独自算出の注目度): 30.52190342330071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding aims to localize the object in 3D point cloud scenes that semantically corresponds to given natural language sentences. It is very critical for roadside infrastructure system to interpret natural languages and localize relevant target objects in complex traffic environments. However, most existing datasets and approaches for 3D visual grounding focus on the indoor and outdoor driving scenes, outdoor monitoring scenarios remain unexplored due to scarcity of paired point cloud-text data captured by roadside infrastructure sensors. In this paper, we introduce a novel task of 3D Visual Grounding for Outdoor Monitoring Scenarios, which enables infrastructure-level understanding of traffic scenes beyond the ego-vehicle perspective. To support this task, we construct MoniRefer, the first real-world large-scale multi-modal dataset for roadside-level 3D visual grounding. The dataset consists of about 136,018 objects with 411,128 natural language expressions collected from multiple complex traffic intersections in the real-world environments. To ensure the quality and accuracy of the dataset, we manually verified all linguistic descriptions and 3D labels for objects. Additionally, we also propose a new end-to-end method, named Moni3DVG, which utilizes the rich appearance information provided by images and geometry and optical information from point cloud for multi-modal feature learning and 3D object localization. Extensive experiments and ablation studies on the proposed benchmarks demonstrate the superiority and effectiveness of our method. Our dataset and code will be released.
- Abstract(参考訳): 3Dビジュアルグラウンドは、与えられた自然言語文に意味的に対応する3Dポイントクラウドシーンでオブジェクトをローカライズすることを目的としている。
道路インフラシステムにとって、自然言語を解釈し、複雑な交通環境において関連する対象物をローカライズすることが非常に重要である。
しかし、既存の3次元視覚的接地のためのデータセットやアプローチは、屋内および屋外の運転シーンに重点を置いている。
本稿では,車外監視シナリオにおける3次元視覚的グラウンドの新たな課題について紹介する。
このタスクを支援するために,道路側3次元視覚グラウンドのための,世界初の大規模マルチモーダルデータセットであるMoniReferを構築した。
データセットは、約136,018個のオブジェクトで構成され、411,128個の自然言語表現が実世界の複数の複雑な交通交差点から収集されている。
データセットの品質と精度を確保するため,オブジェクトの言語記述と3Dラベルを手作業で検証した。
また,マルチモーダルな特徴学習と3Dオブジェクトのローカライゼーションのために,画像や幾何学情報,ポイントクラウドからの光学情報などのリッチな外観情報を利用する,Moni3DVGという新たなエンドツーエンド手法を提案する。
提案手法の優位性と有効性を示すため,提案手法の大規模実験とアブレーション実験を行った。
データセットとコードはリリースされます。
関連論文リスト
- Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。