論文の概要: T-FunS3D: Task-Driven Hierarchical Open-Vocabulary 3D Functionality Segmentation
- arxiv url: http://arxiv.org/abs/2606.05975v1
- Date: Thu, 04 Jun 2026 10:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.719099
- Title: T-FunS3D: Task-Driven Hierarchical Open-Vocabulary 3D Functionality Segmentation
- Title(参考訳): T-FunS3D:タスク駆動型階層型オープンボキャブラリ3次元機能分割
- Authors: Jingkun Feng, Reza Sabzevari,
- Abstract要約: タスク駆動型階層型オープンボキャブラリ3D機能セグメンテーション手法であるT-FunS3Dを紹介する。
我々は,環境中のインスタンスとその視覚的埋め込みを抽出し,オープンな語彙シーングラフを構築した。
タスク記述が与えられた場合、T-FunS3Dはシーングラフで最も関連性の高いインスタンスを特定し、それらの機能コンポーネントを特定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary 3D functionality segmentation enables robots to localize functional object components in 3D scenes. It is a challenging task that requires spatial understanding and task interpretation. Current open-vocabulary 3D segmentation methods primarily focus on object-level recognition, while scene-wide part segmentation methods attempt to segment the entire scene exhaustively, making them highly resource-intensive and time consuming. Balancing segmentation performance in terms of granularity, accuracy, and speed remains a challenge. As one step towards alleviating this, we introduce T-FunS3D, a task-driven hierarchical open-vocabulary 3D functionality segmentation method that provides actionable perception for robotic applications. Our method takes as input the 3D point cloud and posed RGB-D images of an indoor scene. We construct an open-vocabulary scene graph by extracting instances and their visual embeddings in the environment. Given a task description, T-FunS3D identifies the most relevant instances in the scene graph and locates their functional components leveraging a vision-language model. Experiments on the SceneFun3D dataset demonstrate that T-FunS3D is comparable to state-of-the-art in open-vocabulary 3D functionality segmentation, while achieving faster runtime and reduced memory usage.
- Abstract(参考訳): オープンな3D機能セグメンテーションにより、ロボットは3Dシーンで機能的なオブジェクトコンポーネントをローカライズすることができる。
空間的理解とタスク解釈を必要とする課題である。
現在のオープンな3Dセグメンテーション法は主にオブジェクトレベルの認識に重点を置いているが、シーン全体のセグメンテーション法はシーン全体を抜本的にセグメンテーションしようと試みており、リソース集約的で時間を要する。
粒度、精度、速度の面でのセグメンテーション性能のバランスをとることは依然として課題である。
そこで本研究では,タスク駆動型階層型オープンボキャブラリ3D機能セグメンテーション手法であるT-FunS3Dを導入する。
本手法は3次元点雲を入力として室内シーンのRGB-D画像を作成する。
我々は,環境中のインスタンスとその視覚的埋め込みを抽出し,オープンな語彙シーングラフを構築した。
タスク記述が与えられた場合、T-FunS3Dはシーングラフの最も関連性の高いインスタンスを特定し、視覚言語モデルを利用した機能コンポーネントを特定する。
SceneFun3Dデータセットの実験では、T-FunS3Dは、より高速なランタイムとメモリ使用量の削減を実現しつつ、オープンな3D機能のセグメンテーションにおける最先端に匹敵することを示した。
関連論文リスト
- Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding [31.40722103849691]
MPECはオープンな3次元セマンティックセグメンテーションのための新しい学習手法である。
3Dエンティティ言語アライメントと、異なるポイントクラウドビュー間でのポイントエンテント一貫性の両方を使用する。
本手法は,オープンな3次元セマンティックセマンティックセグメンテーションのためのScanNetの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-04-28T05:43:14Z) - NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - Functionality understanding and segmentation in 3D scenes [6.1744362771344]
Fun3DUは、3Dシーンで機能を理解するために設計された最初のアプローチである。
Fun3DUは言語モデルを使用して、Chain-of-Thought推論を通じてタスク記述を解析する。
我々はFun3DUをSceneFun3D上で評価する。
論文 参考訳(メタデータ) (2024-11-25T11:57:48Z) - Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
本稿では,階層的なオープンな3Dシーン表現を構築するためのアプローチであるSearch3Dを紹介する。
従来の方法とは異なり、Search3Dはより柔軟なオープンな3D検索パラダイムにシフトする。
体系的な評価のために,MultiScanに基づくシーンスケールのオープンボキャブラリ3D部分セグメンテーションベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。