論文の概要: 3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2507.12026v1
- Date: Wed, 16 Jul 2025 08:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.30853
- Title: 3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering
- Title(参考訳): 3D-MoRe: 身体的質問応答のための統合モーダル文脈推論
- Authors: Rongtao Xu, Han Gao, Mingming Yu, Dong An, Shunpeng Chen, Changwei Wang, Li Guo, Xiaodan Liang, Shibiao Xu,
- Abstract要約: 3D-MoReは、基礎モデルの強みを活用して、大規模な3D言語データセットを生成するように設計されている。
このフレームワークは、マルチモーダル埋め込み、クロスモーダルインタラクション、言語モデルデコーダなど、主要なコンポーネントを統合している。
ScanNetの3DシーンデータセットとScanQAとScanReferのテキストアノテーションを使用して、3D-MoReは62,000の質問応答ペアと73,000のオブジェクト記述を生成する。
- 参考スコア(独自算出の注目度): 52.01655676571933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing need for diverse and scalable data in indoor scene tasks, such as question answering and dense captioning, we propose 3D-MoRe, a novel paradigm designed to generate large-scale 3D-language datasets by leveraging the strengths of foundational models. The framework integrates key components, including multi-modal embedding, cross-modal interaction, and a language model decoder, to process natural language instructions and 3D scene data. This approach facilitates enhanced reasoning and response generation in complex 3D environments. Using the ScanNet 3D scene dataset, along with text annotations from ScanQA and ScanRefer, 3D-MoRe generates 62,000 question-answer (QA) pairs and 73,000 object descriptions across 1,513 scenes. We also employ various data augmentation techniques and implement semantic filtering to ensure high-quality data. Experiments on ScanQA demonstrate that 3D-MoRe significantly outperforms state-of-the-art baselines, with the CIDEr score improving by 2.15\%. Similarly, on ScanRefer, our approach achieves a notable increase in CIDEr@0.5 by 1.84\%, highlighting its effectiveness in both tasks. Our code and generated datasets will be publicly released to benefit the community, and both can be accessed on the https://3D-MoRe.github.io.
- Abstract(参考訳): 質問応答や高密度キャプションといった屋内シーンタスクにおける多様でスケーラブルなデータの必要性が高まる中で,基礎モデルの強みを活用して大規模3D言語データセットを生成するための新しいパラダイムである3D-MoReを提案する。
このフレームワークは、マルチモーダル埋め込み、クロスモーダル相互作用、言語モデルデコーダを含む重要なコンポーネントを統合し、自然言語命令と3Dシーンデータを処理する。
このアプローチは複雑な3D環境における推論と応答の生成を促進する。
ScanNetの3DシーンデータセットとScanQAとScanReferのテキストアノテーションを使用して、3D-MoReは1,513シーンで62,000のQAペアと73,000のオブジェクト記述を生成する。
また、様々なデータ拡張手法を採用し、セマンティックフィルタリングを実装し、高品質なデータを保証する。
ScanQAの実験では、3D-MoReは最先端のベースラインを大きく上回り、CIDErのスコアは2.15\%向上した。
同様に、ScanReferでは、我々のアプローチはCIDEr@0.5の1.84\%の顕著な増加を実現し、両方のタスクにおけるその効果を強調している。
私たちのコードと生成されたデータセットはコミュニティのために公開され、どちらもhttps://3D-MoRe.github.ioでアクセスできます。
関連論文リスト
- Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。
本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。
このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文 参考訳(メタデータ) (2025-02-04T18:18:50Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-19T04:35:05Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved
Visio-Linguistic Models in 3D Scenes [48.65360357173095]
ScanEnts3D(ScanEnts3D)データセットは、84kの自然参照文にわたる369kオブジェクト間の明示的な対応を提供する。
この新たなデータセットから学習できる直感的な損失を取り入れることで、最近導入されたニューラルリスニングアーキテクチャの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-12-12T21:25:58Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。