論文の概要: Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement
- arxiv url: http://arxiv.org/abs/2511.11702v1
- Date: Wed, 12 Nov 2025 13:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.013066
- Title: Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement
- Title(参考訳): 2次元誘導と幾何学的微細化による課題認識型3次元空間分割
- Authors: Lian He, Meng Liu, Qilang Ye, Yu Zhou, Xiang Deng, Gangyi Ding,
- Abstract要約: タスク対応型3次元シーンアフォーダンスセグメンテーション(TASA)について紹介する。
TASAは2次元のセマンティックキューと3次元の幾何学的推論を粗い方法で併用する新しい幾何学最適化フレームワークである。
3次元幾何情報を完全に活用するために、局所的な3次元幾何と2次元セマンティック先行情報を統合するために、3次元アベイランス改良モジュールを提案する。
- 参考スコア(独自算出の注目度): 12.260126771415019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding 3D scene-level affordances from natural language instructions is essential for enabling embodied agents to interact meaningfully in complex environments. However, this task remains challenging due to the need for semantic reasoning and spatial grounding. Existing methods mainly focus on object-level affordances or merely lift 2D predictions to 3D, neglecting rich geometric structure information in point clouds and incurring high computational costs. To address these limitations, we introduce Task-Aware 3D Scene-level Affordance segmentation (TASA), a novel geometry-optimized framework that jointly leverages 2D semantic cues and 3D geometric reasoning in a coarse-to-fine manner. To improve the affordance detection efficiency, TASA features a task-aware 2D affordance detection module to identify manipulable points from language and visual inputs, guiding the selection of task-relevant views. To fully exploit 3D geometric information, a 3D affordance refinement module is proposed to integrate 2D semantic priors with local 3D geometry, resulting in accurate and spatially coherent 3D affordance masks. Experiments on SceneFun3D demonstrate that TASA significantly outperforms the baselines in both accuracy and efficiency in scene-level affordance segmentation.
- Abstract(参考訳): エンボディエージェントが複雑な環境で有意義に相互作用できるようにするためには,3次元シーンレベルの手頃さを自然言語命令から理解することが不可欠である。
しかし, 意味論的推論や空間的接地の必要性から, この課題は依然として困難である。
既存の方法は、主にオブジェクトレベルの価格に焦点を合わせ、単に2次元の予測を3Dに引き上げ、点雲におけるリッチな幾何学的構造情報を無視し、高い計算コストを発生させる。
これらの制約に対処するため、我々は2次元意味的キューと3次元幾何学的推論を粗大に活用する新しい幾何学最適化フレームワークであるTask-Aware 3D Scene-level Affordance segmentation (TASA)を紹介した。
割当検出効率を向上させるため、TASはタスク対応2D割当検出モジュールを備え、言語や視覚的な入力から操作可能な点を識別し、タスク関連ビューの選択を誘導する。
3次元幾何情報を完全に活用するために、局所的な3次元幾何と2次元セマンティック先行情報を統合し、正確な空間的コヒーレントな3次元アベイランスマスクを作成する3Dアベイランス改良モジュールを提案する。
SceneFun3Dの実験では、TASAはシーンレベルの割当セグメンテーションにおいて、精度と効率の両方でベースラインを著しく上回っている。
関連論文リスト
- IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文 参考訳(メタデータ) (2025-10-09T15:01:26Z) - Reg3D: Reconstructive Geometry Instruction Tuning for 3D Scene Understanding [6.7958985137291235]
Reg3DはReconstructive Geometry Instruction Tuningフレームワークである。
私たちの重要な洞察は、効果的な3D理解には、単に記述するのではなく、基礎となる幾何学的構造を再構築する必要があります。
ScanQA、Scan2Cap、ScanRefer、SQA3Dの実験は、Reg3Dが大幅なパフォーマンス改善を提供することを示した。
論文 参考訳(メタデータ) (2025-09-03T18:36:44Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。