論文の概要: GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning
- arxiv url: http://arxiv.org/abs/2602.04231v1
- Date: Wed, 04 Feb 2026 05:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.161378
- Title: GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning
- Title(参考訳): GeoLanG: 統一RGB-Dマルチモーダル学習による幾何学的言語ガイド型グラスピング
- Authors: Rui Tang, Guankun Wang, Long Bai, Huxin Gao, Jiewen Lai, Chi Kit Ng, Jiazheng Wang, Fan Zhang, Hongliang Ren,
- Abstract要約: GeoLanGは言語誘導の把握のためのエンドツーエンドのマルチタスクフレームワークである。
視覚的および言語的な入力を共有表現空間に統一し、ロバストなセマンティックアライメントと一般化を改善する。
その結果,GeoLanGは複雑で散在した環境において,正確かつ堅牢な言語誘導の把握を可能にすることを示した。
- 参考スコア(独自算出の注目度): 17.389094942979455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided grasping has emerged as a promising paradigm for enabling robots to identify and manipulate target objects through natural language instructions, yet it remains highly challenging in cluttered or occluded scenes. Existing methods often rely on multi-stage pipelines that separate object perception and grasping, which leads to limited cross-modal fusion, redundant computation, and poor generalization in cluttered, occluded, or low-texture scenes. To address these limitations, we propose GeoLanG, an end-to-end multi-task framework built upon the CLIP architecture that unifies visual and linguistic inputs into a shared representation space for robust semantic alignment and improved generalization. To enhance target discrimination under occlusion and low-texture conditions, we explore a more effective use of depth information through the Depth-guided Geometric Module (DGGM), which converts depth into explicit geometric priors and injects them into the attention mechanism without additional computational overhead. In addition, we propose Adaptive Dense Channel Integration, which adaptively balances the contributions of multi-layer features to produce more discriminative and generalizable visual representations. Extensive experiments on the OCID-VLG dataset, as well as in both simulation and real-world hardware, demonstrate that GeoLanG enables precise and robust language-guided grasping in complex, cluttered environments, paving the way toward more reliable multimodal robotic manipulation in real-world human-centric settings.
- Abstract(参考訳): 言語誘導の把握は、ロボットが自然言語で対象物を識別し、操作できるようにするための有望なパラダイムとして現れてきたが、散らばったり隠された場面では非常に困難である。
既存の手法は、オブジェクトの認識と把握を分離する多段階パイプラインに依存しており、それによってオブジェクト間の融合が制限され、冗長な計算が行われ、乱れ、隠蔽、低テクスチャシーンの一般化が不十分になる。
このような制約に対処するため、私たちはCLIPアーキテクチャ上に構築されたエンドツーエンドのマルチタスクフレームワークであるGeoLanGを提案し、視覚的および言語的入力を共有表現空間に統一し、ロバストなセマンティックアライメントと一般化を改善した。
そこで我々は,DGGM(Depth-Guided Geometric Module)によるより効果的な深度情報の利用について検討した。
さらに,より差別的で一般化可能な視覚表現を生成するために,多層機能のコントリビューションを適応的にバランスさせるAdaptive Dense Channel Integrationを提案する。
OCID-VLGデータセットに関する大規模な実験は、シミュレーションと実世界のハードウェアの両方において、GeoLanGが複雑で散らかった環境で正確で堅牢な言語誘導の把握を可能にし、現実世界の人間中心の設定においてより信頼性の高いマルチモーダルロボット操作への道を開くことを実証している。
関連論文リスト
- GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning [8.819428500071007]
視覚言語事前学習モデルは、自然言語によるリモートセンシング画像のブリッジにおいて大きな進歩を遂げている。
リモートセンシングタスクにおける微粒なアライメントを実現する統合フレームワークGeoAlignCLIPを提案する。
RSFG-100kはシーン記述、地域レベルのアノテーション、難易度の高いサンプルを含む微粒なリモートセンシングデータセットである。
論文 参考訳(メタデータ) (2026-03-10T12:12:11Z) - Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining [59.2578488860426]
不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
論文 参考訳(メタデータ) (2026-03-02T11:38:12Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Language-Guided Grasp Detection with Coarse-to-Fine Learning for Robotic Manipulation [31.386822229629455]
本稿では,ロボット操作のための粗粒度学習パラダイムを用いた言語誘導グラフ検出(LGGD)を提案する。
この設計により、きめ細かいビジュアル・セマンティックなアライメントが可能となり、タスク命令に対する予測された把握の実現性が改善される。
OCID-VLGとGrasp-Anything++データセットの実験は、LGGDが既存の言語誘導の把握方法を上回ることを示している。
論文 参考訳(メタデータ) (2025-12-24T09:16:42Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving [7.007334645975593]
我々はNuGroundingを紹介した。NuGroundingは、自動運転におけるマルチビュー3次元視覚グラウンドのための最初の大規模ベンチマークである。
本稿では,マルチモーダルLLMの命令理解能力と専門的検出モデルの正確な位置推定能力とをシームレスに組み合わせた新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-28T13:55:16Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。