論文の概要: Disc3D: Automatic Curation of High-Quality 3D Dialog Data via Discriminative Object Referring
- arxiv url: http://arxiv.org/abs/2511.18817v1
- Date: Mon, 24 Nov 2025 06:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.057019
- Title: Disc3D: Automatic Curation of High-Quality 3D Dialog Data via Discriminative Object Referring
- Title(参考訳): Disc3D:識別オブジェクト参照による高品質3次元対話データの自動キュレーション
- Authors: Siyuan Wei, Chunjie Wang, Xiao Liu, Xiaosheng Yan, Zhishan Zhou, Rui Huang,
- Abstract要約: 3D Multi-modal Large Language Models (MLLM) は、大規模で高品質な3Dシーン対話データセットが不足しているため、2Dピアよりもまだ遅れている。
本稿では,生の3Dスキャンを,前回のコストのごく一部で,曖昧で高品質な対話データに変換する完全自動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 10.067200639268695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Multi-modal Large Language Models (MLLMs) still lag behind their 2D peers, largely because large-scale, high-quality 3D scene-dialogue datasets remain scarce. Prior efforts hinge on expensive human annotation and leave two key ambiguities unresolved: viewpoint ambiguity, where spatial language presumes unknown camera poses, and object referring ambiguity, where non-exclusive descriptions blur the line between targets and distractors. We therefore present a fully automated pipeline that converts raw 3D scans into unambiguous, high-quality dialogue data at a fraction of the previous cost. By synergizing rule-based constraints with 2D MLLMs and LLMs, the pipeline enables controllable, scalable generation without human intervention. The pipeline comprises four stages: (1) meta-annotation collection harvesting object-, frame-, and scene-level captions, (2) scene graph construction with relation correction to capture proximal object relations, (3) discriminative object referring that generates exclusive and compact descriptions, and (4) multi-task data generation synthesizing diverse dialogues. Our pipeline systematically mitigates inherent flaws in source datasets and produces the final Disc3D dataset, over 2 million samples in 25K hybrid 3D scenes, spanning scene, view, and object captioning, visual grounding, and five object-centric QA tasks. Extensive experiments demonstrate that training with Disc3D yields consistent, significant improvements on both public benchmarks and our multifaceted Disc3D-QA tasks. Code, data, and models will be publicly available.
- Abstract(参考訳): 3D Multi-modal Large Language Models (MLLM) は、大規模で高品質な3Dシーン対話データセットが不足しているため、2Dピアよりもまだ遅れている。
空間言語が未知のカメラのポーズを仮定する視点曖昧性(spective ambiguity)と、非排他的記述がターゲットとイントラクタの間の線を曖昧にする対象参照曖昧性(object reference ambiguity)である。
そこで我々は,生の3Dスキャンを,前回のコストのごく一部で,曖昧で高品質な対話データに変換する完全自動パイプラインを提案する。
ルールベースの制約を2D MLLM と LLM と同期させることで、パイプラインは人間の介入なしに制御可能でスケーラブルな生成を可能にする。
パイプラインは,(1)メタアノテーション収集によるオブジェクト-,フレーム-,シーンレベルのキャプションの抽出,(2)近位オブジェクト関係を捕捉するための関係補正によるシーングラフ構築,(3)排他的かつコンパクトな記述を生成する識別対象参照,(4)多様な対話を合成するマルチタスクデータ生成の4段階からなる。
我々のパイプラインは、ソースデータセットの固有の欠陥を体系的に軽減し、最後のDEC3Dデータセット、25Kのハイブリッド3Dシーンにおける200万以上のサンプル、スパンニングシーン、ビュー、オブジェクトキャプション、ビジュアルグラウンド、および5つのオブジェクト中心のQAタスクを生成します。
大規模な実験により、DEC3Dによるトレーニングは、公開ベンチマークと多面的なDEC3D-QAタスクの両方において、一貫性があり、重要な改善をもたらすことが示された。
コード、データ、モデルは公開されます。
関連論文リスト
- MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。