論文の概要: 3D-DRES: Detailed 3D Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2603.02896v1
- Date: Tue, 03 Mar 2026 11:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.775854
- Title: 3D-DRES: Detailed 3D Referring Expression Segmentation
- Title(参考訳): 3D-DRES:詳細な3D参照式セグメンテーション
- Authors: Qi Chen, Changli Wu, Jiayi Ji, Yiwei Ma, Liujuan Cao,
- Abstract要約: 本稿では,3Dインスタンスマッピングのフレーズを提供する新しいタスクであるDetailed 3D Referring Expression (3D-DRES)を紹介する。
11,054個の異なるオブジェクトにまたがる54,432個の記述を含む新しいデータセットであるDetailReferを提案する。
実験の結果,DetailReferで訓練したモデルはフレーズレベルのセグメンテーションに優れ,従来の3D-RESベンチマークでは驚くべき改善が見られた。
- 参考スコア(独自算出の注目度): 53.88273255459736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current 3D visual grounding tasks only process sentence level detection or segmentation, which critically fails to leverage the rich compositional contextual reasonings within natural language expressions. To address this challenge, we introduce Detailed 3D Referring Expression Segmentation (3D-DRES), a new task that provides a phrase to 3D instance mapping, aiming at enhancing fine-grained 3D vision language understanding. To support 3D-DRES, we present DetailRefer, a new dataset comprising 54,432 descriptions spanning 11,054 distinct objects. Unlike previous datasets, DetailRefer implements a pioneering phrase-instance annotation paradigm where each referenced noun phrase is explicitly mapped to its corresponding 3D elements. Additionally, we introduce DetailBase, a purposefully streamlined yet effective baseline architecture that supports dual-mode segmentation at both sentence and phrase levels. Our experimental results demonstrate that models trained on DetailRefer not only excel at phrase-level segmentation but also show surprising improvements on traditional 3D-RES benchmarks.
- Abstract(参考訳): 現在の3Dビジュアルグラウンドタスクは、文レベルの検出やセグメンテーションのみを処理し、自然言語表現内のリッチなコンテクスト的推論の活用に失敗する。
この課題に対処するために,詳細な3D参照表現セグメンテーション(3D-DRES)を導入する。
3D-DRESをサポートするために,11,054個の異なるオブジェクトにまたがる54,432個の記述からなる新しいデータセットであるDetailReferを提案する。
以前のデータセットとは異なり、DetailReferは、各参照名詞句を対応する3D要素に明示的にマッピングする、先駆的なフレーズインスタンスアノテーションパラダイムを実装している。
さらに、目的的に合理化されているが効果的なベースラインアーキテクチャであるDetailBaseを導入し、文レベルと句レベルの二重モードセグメンテーションをサポートする。
実験結果から,DetailReferでトレーニングしたモデルはフレーズレベルのセグメンテーションに優れるだけでなく,従来の3D-RESベンチマークにも驚くべき改善が見られた。
関連論文リスト
- ReferSplat: Referring Segmentation in 3D Gaussian Splatting [60.73702075842278]
3次元ガウス散乱(R3DGS)を参照
Taskは、自然言語の記述に基づいて、ターゲットオブジェクトを3Dガウスシーンにセグメントすることを目的としている。
これらの課題に対処するため,自然言語表現を用いて3次元ガウス点を明示的にモデル化するフレームワークReferSplatを提案する。
論文 参考訳(メタデータ) (2025-08-11T17:59:30Z) - Segment Any 3D-Part in a Scene from a Sentence [50.46950922754459]
本稿では,自然言語記述に基づくシーン内の任意の3次元部分のセグメンテーションを実現することを目的とする。
本稿では,高密度部分アノテーションを用いた最初の大規模3Dデータセットである3D-PUデータセットを紹介する。
手法面では,パートレベルセグメンテーションの課題に対処する3DインプットのみのフレームワークであるOpenPart3Dを提案する。
論文 参考訳(メタデータ) (2025-06-24T05:51:22Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - 3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文 参考訳(メタデータ) (2024-07-30T08:59:05Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Toward Explainable and Fine-Grained 3D Grounding through Referring
Textual Phrases [35.18565109770112]
3DPAGタスクは, 対象オブジェクトを3Dシーンでローカライズすることを目的として, 全てのフレーズ関連オブジェクトを明示的に識別し, 文脈的フレーズに従って推論を行う。
データセットをタップすることで、従来の3DVGメソッドを粒度の細かいフレーズ認識シナリオに拡張できます。
その結果,Nr3D,Sr3D,ScanReferの3.9%,3.5%,4.6%の精度向上が得られた。
論文 参考訳(メタデータ) (2022-07-05T05:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。