論文の概要: Advancing 3D Scene Understanding with MV-ScanQA Multi-View Reasoning Evaluation and TripAlign Pre-training Dataset
- arxiv url: http://arxiv.org/abs/2508.11058v1
- Date: Thu, 14 Aug 2025 20:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.664963
- Title: Advancing 3D Scene Understanding with MV-ScanQA Multi-View Reasoning Evaluation and TripAlign Pre-training Dataset
- Title(参考訳): MV-ScanQAマルチビュー推論評価とTripAlign事前学習データセットによる3次元シーン理解の促進
- Authors: Wentao Mo, Qingchao Chen, Yuxin Peng, Siyuan Huang, Yang Liu,
- Abstract要約: MV-ScanQAは、新しい3D質問応答データセットである。
本稿では,大規模かつ低コストな2D-3D言語事前学習コーパスTripAlignについて紹介する。
さらに,MV-ScanQAにおける多視点推論のためのベースライン手法であるLEGOを開発し,事前学習した2次元LVLMの知識をTripAlignで3Dドメインに転送する。
- 参考スコア(独自算出の注目度): 56.533371387182065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of 3D vision-language (3D VL) learning is hindered by several limitations in existing 3D VL datasets: they rarely necessitate reasoning beyond a close range of objects in single viewpoint, and annotations often link instructions to single objects, missing richer contextual alignments between multiple objects. This significantly curtails the development of models capable of deep, multi-view 3D scene understanding over distant objects. To address these challenges, we introduce MV-ScanQA, a novel 3D question answering dataset where 68% of questions explicitly require integrating information from multiple views (compared to less than 7% in existing datasets), thereby rigorously testing multi-view compositional reasoning. To facilitate the training of models for such demanding scenarios, we present TripAlign dataset, a large-scale and low-cost 2D-3D-language pre-training corpus containing 1M <2D view, set of 3D objects, text> triplets that explicitly aligns groups of contextually related objects with text, providing richer, view-grounded multi-object multimodal alignment signals than previous single-object annotations. We further develop LEGO, a baseline method for the multi-view reasoning challenge in MV-ScanQA, transferring knowledge from pre-trained 2D LVLMs to 3D domain with TripAlign. Empirically, LEGO pre-trained on TripAlign achieves state-of-the-art performance not only on the proposed MV-ScanQA, but also on existing benchmarks for 3D dense captioning and question answering. Datasets and code are available at https://matthewdm0816.github.io/tripalign-mvscanqa.
- Abstract(参考訳): 3次元視覚言語(3D VL)学習の進歩は、既存の3次元VLデータセットのいくつかの制限によって妨げられている。
これにより、遠方の物体に対して深い多視点の3Dシーン理解が可能なモデルの開発が大幅に短縮される。
これらの課題に対処するために、MV-ScanQAという新しい3D質問応答データセットを導入し、質問の68%は、複数のビューからの情報を明示的に統合する必要がある(既存のデータセットの7%未満)。
このような要求シナリオに対するモデルのトレーニングを容易にするため,1M<2Dビュー,3Dオブジェクトの集合,テキスト>を含む大規模で低コストな2D-3D言語事前学習コーパスであるTripAlignデータセットを提案する。
さらに,MV-ScanQAにおける多視点推論のためのベースライン手法であるLEGOを開発し,事前学習した2次元LVLMの知識をTripAlignで3Dドメインに転送する。
TripAlignで事前訓練されたLEGOは、提案されているMV-ScanQAだけでなく、既存の3D高密度キャプションと質問応答のベンチマークでも最先端のパフォーマンスを実現している。
データセットとコードはhttps://matthewdm0816.github.io/tripalign-mvscanqa.comで入手できる。
関連論文リスト
- 3D Question Answering via only 2D Vision-Language Models [87.41421075243103]
大規模視覚言語モデル(LVLM)は、多くの分野を進歩させた。
代表的な例として,3次元質問応答(3D-QA)を用いた3次元シーン理解タスクの活用について検討する。
具体的には、3Dポイントクラウドから2Dビューをサンプリングし、2Dモデルにフィードして、与えられた質問に答える。
我々は3D-QAのための重要かつ多様なビューを自動的に選択する新しいアプローチであるcdViewsを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:04:39Z) - Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving [45.82124136705798]
DriveMonkeyは、大きなビジュアル言語モデルと空間プロセッサをシームレスに統合するフレームワークである。
我々の実験によると、DriveMonkeyは一般的なLVLMよりも優れており、特に3D視覚グラウンドタスクにおいて9.86%の顕著な改善が達成されている。
論文 参考訳(メタデータ) (2025-05-13T16:36:51Z) - MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs [13.678235444299286]
MLLM(Multimodal large language model)は、2次元の視覚的理解に優れるが、3次元空間を推論する能力には限界がある。
本研究では,1)新しい教師付き微調整データセットの導入,2)屋内シーンに焦点を当てた新しい評価ベンチマークを導入するために,オープンセットアノテーションを用いた大規模高品質3Dシーンデータを活用する。
論文 参考訳(メタデータ) (2025-03-17T12:34:22Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。