論文の概要: Segment Any 3D-Part in a Scene from a Sentence
- arxiv url: http://arxiv.org/abs/2506.19331v1
- Date: Tue, 24 Jun 2025 05:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.504753
- Title: Segment Any 3D-Part in a Scene from a Sentence
- Title(参考訳): シーンの3D部分のセグメンテーション
- Authors: Hongyu Wu, Pengwan Yang, Yuki M. Asano, Cees G. M. Snoek,
- Abstract要約: 本稿では,自然言語記述に基づくシーン内の任意の3次元部分のセグメンテーションを実現することを目的とする。
本稿では,高密度部分アノテーションを用いた最初の大規模3Dデータセットである3D-PUデータセットを紹介する。
手法面では,パートレベルセグメンテーションの課題に対処する3DインプットのみのフレームワークであるOpenPart3Dを提案する。
- 参考スコア(独自算出の注目度): 50.46950922754459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to achieve the segmentation of any 3D part in a scene based on natural language descriptions, extending beyond traditional object-level 3D scene understanding and addressing both data and methodological challenges. Due to the expensive acquisition and annotation burden, existing datasets and methods are predominantly limited to object-level comprehension. To overcome the limitations of data and annotation availability, we introduce the 3D-PU dataset, the first large-scale 3D dataset with dense part annotations, created through an innovative and cost-effective method for constructing synthetic 3D scenes with fine-grained part-level annotations, paving the way for advanced 3D-part scene understanding. On the methodological side, we propose OpenPart3D, a 3D-input-only framework to effectively tackle the challenges of part-level segmentation. Extensive experiments demonstrate the superiority of our approach in open-vocabulary 3D scene understanding tasks at the part level, with strong generalization capabilities across various 3D scene datasets.
- Abstract(参考訳): 本稿では,従来のオブジェクトレベルの3Dシーン理解を超えて,データと方法論の両課題に対処する,自然言語記述に基づくシーン内の任意の3D部分のセグメンテーションを実現することを目的とする。
高価な取得とアノテーションの負担のため、既存のデータセットとメソッドは主にオブジェクトレベルの理解に限られる。
データとアノテーションの可用性の限界を克服するため,我々は,高密度な部分アノテーションを持つ最初の大規模3Dデータセットである3D-PUデータセットを紹介した。
手法面では,パートレベルセグメンテーションの課題を効果的に解決する3DインプットのみのフレームワークであるOpenPart3Dを提案する。
オープンな3次元シーン理解タスクにおいて,様々な3次元シーンデータセットにまたがる強力な一般化機能を備えたオープンな3次元シーン理解タスクにおいて,我々のアプローチの優位性を示す実験を行った。
関連論文リスト
- Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
本稿では,階層的なオープンな3Dシーン表現を構築するためのアプローチであるSearch3Dを紹介する。
従来の方法とは異なり、Search3Dはより柔軟なオープンな3D検索パラダイムにシフトする。
体系的な評価のために,MultiScanに基づくシーンスケールのオープンボキャブラリ3D部分セグメンテーションベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - OpenSU3D: Open World 3D Scene Understanding using Foundation Models [2.1262749936758216]
オープンセット, インスタンスレベルの3次元シーン表現を構築するための, 新規でスケーラブルなアプローチを提案する。
既存の方法は、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題を必要とする。
ゼロショット一般化機能を示すScanNetとReplicaのデータセットから,複数のシーンに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-19T13:01:12Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - 3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。
SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。
本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:26:52Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。