論文の概要: BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields
- arxiv url: http://arxiv.org/abs/2604.08410v2
- Date: Tue, 14 Apr 2026 05:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.222652
- Title: BLaDA: Bridging Language to Functional Dexterous Actions within 3DGS Fields
- Title(参考訳): BLaDA: 3DGSフィールド内の関数的デクサラスアクションに言語をブリッジする
- Authors: Fan Yang, Wenrui Chen, Guorun Yan, Ruize Liao, Wanjun Jia, Dongsheng Luo, Jiacheng Lin, Kailun Yang, Zhiyong Li, Yaonan Wang,
- Abstract要約: 構造化されていない環境では、機能的デクスタラスな把握は意味理解の緊密な統合、正確な3D機能局在化、物理的に解釈可能な実行を要求する。
BLaDAは,開語彙命令を知覚的および制御的制約として根拠として,機能的デキスタス操作のための解釈可能なゼロショットフレームワークである。
BLaDAは、様々なカテゴリやタスクにおける機能的操作の成功率と精度の両方において、既存の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 44.48260058069929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In unstructured environments, functional dexterous grasping calls for the tight integration of semantic understanding, precise 3D functional localization, and physically interpretable execution. Modular hierarchical methods are more controllable and interpretable than end-to-end VLA approaches, but existing ones still rely on predefined affordance labels and lack the tight semantic--pose coupling needed for functional dexterous manipulation. To address this, we propose BLaDA (Bridging Language to Dexterous Actions in 3DGS fields), an interpretable zero-shot framework that grounds open-vocabulary instructions as perceptual and control constraints for functional dexterous manipulation. BLaDA establishes an interpretable reasoning chain by first parsing natural language into a structured sextuple of manipulation constraints via a Knowledge-guided Language Parsing (KLP) module. To achieve pose-consistent spatial reasoning, we introduce the Triangular Functional Point Localization (TriLocation) module, which utilizes 3D Gaussian Splatting as a continuous scene representation and identifies functional regions under triangular geometric constraints. Finally, the 3D Keypoint Grasp Matrix Transformation Execution (KGT3D+) module decodes these semantic-geometric constraints into physically plausible wrist poses and finger-level commands. Extensive experiments on complex benchmarks demonstrate that BLaDA significantly outperforms existing methods in both affordance grounding precision and the success rate of functional manipulation across diverse categories and tasks. Code will be publicly available at https://github.com/PopeyePxx/BLaDA.
- Abstract(参考訳): 構造化されていない環境では、機能的デクスタラスな把握は意味理解の緊密な統合、正確な3D機能局在化、物理的に解釈可能な実行を要求する。
モジュラ階層的手法は、エンドツーエンドのVLAアプローチよりも制御可能であり、解釈可能であるが、既存の手法は、まだ事前定義された価格ラベルに依存しており、機能的なデキスタス操作に必要な厳密な意味論的結合が欠如している。
そこで本稿では,BLaDA(Bridging Language to Dexterous Actions in 3DGS field)を提案する。
BLaDAは、自然言語をKLP(Knowledge-Guided Language Parsing)モジュールを介して、操作制約の構造化されたセクスタプルに解析することで、解釈可能な推論チェーンを確立する。
ポーズ一貫性のある空間的推論を実現するために,3次元ガウススプラッティングを連続的なシーン表現として利用し,三角形の幾何学的制約の下で関数領域を識別する三角関数点局所化 (Triloccation) モジュールを導入する。
最後に、3D Keypoint Grasp Matrix Transformation Execution (KGT3D+)モジュールは、これらの意味幾何学的制約を物理的に妥当な手首ポーズと指レベルのコマンドにデコードする。
複雑なベンチマーク実験により、BLaDAは様々なカテゴリやタスクにおける機能的操作の成功率と精度の両方において、既存の手法を著しく上回っていることが示された。
コードはhttps://github.com/PopeyePxx/BLaDA.comで公開される。
関連論文リスト
- LESV: Language Embedded Sparse Voxel Fusion for Open-Vocabulary 3D Scene Understanding [9.377694035678948]
本稿では,Sparse Voxel Rasterization (SVRaster) を構造的,不随伴な幾何学表現として活用する新しいフレームワークを提案する。
これにより、決定論的で信頼性に配慮した特徴登録プロセスが可能となり、3DGSに共通する意味的出血アーティファクトが抑制される。
提案手法は,Open Vocabulary 3D Object Retrieval と Point Cloud Understanding ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-01T20:48:06Z) - LOC: A General Language-Guided Framework for Open-Set 3D Occupancy Prediction [9.311605679381529]
我々は,様々な占有ネットワークに適用可能な汎用言語誘導フレームワークLOCを提案する。
自己教師型タスクには,動的/静的シーンに多フレームLiDAR点を融合する戦略,ポアソン再構成を用いて空白を埋める手法,K-Nearest Neighbor (KNN) を介してボクセルに意味を割り当てる手法を用いる。
我々のモデルは,CLIP機能空間に埋め込まれた高密度なボクセル特徴を予測し,テキストと画像の画素情報を統合し,テキストとセマンティックの類似性に基づいて分類する。
論文 参考訳(メタデータ) (2025-10-25T03:27:19Z) - OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding [17.524454394142477]
提案するOpenGS-Fusionは、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙密集型マッピングフレームワークである。
また,MLLM-Assisted Adaptive Thresholding という新しい多モーダル言語誘導手法を導入し,類似度閾値を適応的に調整することで3次元オブジェクトのセグメンテーションを改良する。
提案手法は,3次元オブジェクト理解とシーン再構築の品質において,既存の手法よりも優れており,言語誘導シーンインタラクションにおけるその効果を示している。
論文 参考訳(メタデータ) (2025-08-02T02:22:36Z) - ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting [52.40697058096931]
3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。
我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。
LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-09T12:37:15Z) - Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。