論文の概要: UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation
- arxiv url: http://arxiv.org/abs/2603.23478v1
- Date: Tue, 24 Mar 2026 17:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.622053
- Title: UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation
- Title(参考訳): UniFunc3D:3次元機能分割のための統合アクティブ空間時間グラウンド
- Authors: Jiaying Lin, Dan Xu,
- Abstract要約: 既存の方法は、初期タスク解析中に視覚障害に悩まされる断片化されたパイプラインに依存している。
マルチモーダルな大規模言語モデルをアクティブオブザーバとして扱う,統一的でトレーニングのないフレームワークUniFunc3Dを提案する。
- 参考スコア(独自算出の注目度): 24.24099258082588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Functionality segmentation in 3D scenes requires an agent to ground implicit natural-language instructions into precise masks of fine-grained interactive elements. Existing methods rely on fragmented pipelines that suffer from visual blindness during initial task parsing. We observe that these methods are limited by single-scale, passive and heuristic frame selection. We present UniFunc3D, a unified and training-free framework that treats the multimodal large language model as an active observer. By consolidating semantic, temporal, and spatial reasoning into a single forward pass, UniFunc3D performs joint reasoning to ground task decomposition in direct visual evidence. Our approach introduces active spatial-temporal grounding with a coarse-to-fine strategy. This allows the model to select correct video frames adaptively and focus on high-detail interactive parts while preserving the global context necessary for disambiguation. On SceneFun3D, UniFunc3D achieves state-of-the-art performance, surpassing both training-free and training-based methods by a large margin with a relative 59.9\% mIoU improvement, without any task-specific training. Code will be released on our project page: https://jiaying.link/unifunc3d.
- Abstract(参考訳): 3Dシーンにおける機能的セグメンテーションでは、エージェントは暗黙の自然言語命令をきめ細かな対話要素の正確なマスクに接地する必要がある。
既存の方法は、初期タスク解析中に視覚障害に悩まされる断片化されたパイプラインに依存している。
我々は,これらの手法が単一スケール,受動的,ヒューリスティックなフレーム選択によって制限されていることを観察した。
マルチモーダルな大規模言語モデルをアクティブオブザーバとして扱う,統一的でトレーニングのないフレームワークUniFunc3Dを提案する。
意味論的、時間的、空間的推論を1つの前方通過に統合することにより、UniFunc3Dは直接視覚的証拠としてタスク分解を基底とする共同推論を行う。
提案手法は, 粗大な戦略により, アクティブな時空間接地を実現する。
これにより、モデルは適切なビデオフレームを適応的に選択し、曖昧さのために必要なグローバルなコンテキストを保ちながら、高精細なインタラクティブな部分に集中することができる。
SceneFun3Dでは、UniFunc3Dは最先端のパフォーマンスを達成し、トレーニング不要とトレーニングベースの両方の手法を大きなマージンで上回り、59.9\% mIoUを相対的に改善した。
コードはプロジェクトのページでリリースされます。
関連論文リスト
- Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models [20.05010202296243]
エージェントが3Dシーンの各参照余剰要素、その位置、動きタイプ、動き軸について予測する必要がある。
本稿では,MLLM(Multimodal Large Language Models)とCoT(Chere-of-Thought)推論パラダイムを統合した新しいフレームワークであるAffordBotを提案する。
AffordBotは最先端のパフォーマンスを実現し、3Dポイントのクラウド入力とMLLMだけで強力な一般化と物理的根拠を持つ推論を実証する。
論文 参考訳(メタデータ) (2025-11-13T06:43:00Z) - REACT3D: Recovering Articulations for Interactive Physical 3D Scenes [96.27769519526426]
REACT3Dは静的な3Dシーンを一貫した幾何学を持つシミュレーション可能なインタラクティブなレプリカに変換するフレームワークである。
室内の様々な場面における検出・分離・調音計測における最先端性能について検討した。
論文 参考訳(メタデータ) (2025-10-13T12:37:59Z) - Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。
本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文 参考訳(メタデータ) (2024-10-30T14:06:51Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。