論文の概要: Language-Guided Grasp Detection with Coarse-to-Fine Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.21065v1
- Date: Wed, 24 Dec 2025 09:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.745736
- Title: Language-Guided Grasp Detection with Coarse-to-Fine Learning for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための粗度学習による言語誘導グラフ検出
- Authors: Zebin Jiang, Tianle Jin, Xiangtong Yao, Alois Knoll, Hu Cao,
- Abstract要約: 本稿では,ロボット操作のための粗粒度学習パラダイムを用いた言語誘導グラフ検出(LGGD)を提案する。
この設計により、きめ細かいビジュアル・セマンティックなアライメントが可能となり、タスク命令に対する予測された把握の実現性が改善される。
OCID-VLGとGrasp-Anything++データセットの実験は、LGGDが既存の言語誘導の把握方法を上回ることを示している。
- 参考スコア(独自算出の注目度): 31.386822229629455
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Grasping is one of the most fundamental challenging capabilities in robotic manipulation, especially in unstructured, cluttered, and semantically diverse environments. Recent researches have increasingly explored language-guided manipulation, where robots not only perceive the scene but also interpret task-relevant natural language instructions. However, existing language-conditioned grasping methods typically rely on shallow fusion strategies, leading to limited semantic grounding and weak alignment between linguistic intent and visual grasp reasoning.In this work, we propose Language-Guided Grasp Detection (LGGD) with a coarse-to-fine learning paradigm for robotic manipulation. LGGD leverages CLIP-based visual and textual embeddings within a hierarchical cross-modal fusion pipeline, progressively injecting linguistic cues into the visual feature reconstruction process. This design enables fine-grained visual-semantic alignment and improves the feasibility of the predicted grasps with respect to task instructions. In addition, we introduce a language-conditioned dynamic convolution head (LDCH) that mixes multiple convolution experts based on sentence-level features, enabling instruction-adaptive coarse mask and grasp predictions. A final refinement module further enhances grasp consistency and robustness in complex scenes.Experiments on the OCID-VLG and Grasp-Anything++ datasets show that LGGD surpasses existing language-guided grasping methods, exhibiting strong generalization to unseen objects and diverse language queries. Moreover, deployment on a real robotic platform demonstrates the practical effectiveness of our approach in executing accurate, instruction-conditioned grasp actions. The code will be released publicly upon acceptance.
- Abstract(参考訳): グラフピングはロボット操作における最も基本的な課題の1つであり、特に非構造的、散在的、意味的に多様な環境においてである。
近年の研究では、ロボットがシーンを知覚するだけでなく、タスク関連自然言語命令を解釈する言語誘導操作が研究されている。
しかし,既存の言語条件の把握手法は,一般的に浅い融合戦略に頼り,言語意図と視覚的把握推論の間に限定的なセマンティックグラウンド化と弱いアライメントをもたらす。
LGGDは、CLIPベースの視覚的およびテキスト的埋め込みを階層的なクロスモーダル融合パイプラインに利用し、視覚的特徴再構成プロセスに言語的手がかりを徐々に注入する。
この設計により、きめ細かいビジュアル・セマンティックなアライメントが可能となり、タスク命令に対する予測された把握の実現性が改善される。
さらに、言語条件付き動的畳み込みヘッド(LDCH)を導入し、文レベルの特徴に基づいて複数の畳み込みの専門家を混合し、命令適応型粗いマスクと予測の把握を可能にする。
OCID-VLGとGrasp-Anything++データセットの実験では、LGGDは既存の言語誘導の把握方法を超えており、目に見えないオブジェクトや多様な言語クエリへの強力な一般化を示している。
さらに、実際のロボットプラットフォームへの展開は、正確な指示条件の把握動作を実行する上で、我々のアプローチの実践的効果を示す。
コードは受理後、公開されます。
関連論文リスト
- Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity [23.77040677368575]
我々は,潜在的にあいまいな自然言語によって指定されたタスクを達成できる,新しいロボット操作フレームワークを導入する。
このフレームワークはVLM(Vision-Language Model)を使用して、自然言語命令の抽象概念を解釈する。
本稿では,言語あいまいさ,コンタクトリッチな操作,多目的インタラクションといった課題に対して,アプローチが優れていることを示す。
論文 参考訳(メタデータ) (2025-06-19T23:42:03Z) - Interpretable Robotic Manipulation from Language [11.207620790833271]
本稿では,操作タスクに特化して設計された,Ex-PERACTという説明可能な行動クローニングエージェントを紹介する。
トップレベルでは、モデルは個別のスキルコードを学ぶことを任務とし、下位レベルでは、ポリシーネットワークは問題をボクセル化されたグリッドに変換し、離散化されたアクションをボクセルグリッドにマップする。
提案手法は,RLBenchベンチマークを用いた8つの操作課題にまたがって評価し,Ex-PERACTが競合する政策性能を達成するだけでなく,複雑な環境下でのヒューマンインストラクションとマシン実行のギャップを効果的に橋渡しすることを示した。
論文 参考訳(メタデータ) (2024-05-27T11:02:21Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - SAGE: Bridging Semantic and Actionable Parts for GEneralizable Manipulation of Articulated Objects [9.500480417077272]
本稿では,自然言語命令下での汎用的な操作を実現するために,意味的および動作可能なオブジェクトをブリッジする新しいフレームワークを提案する。
パーシャルグラウンドモジュールは、セマンティックな部分を「ジェネリザブル・アクティブル・パート(GAParts)」と表現し、パートモーションに関する情報を本質的に保持する。
インタラクティブなフィードバックモジュールが障害に対応するために組み込まれており、ループを閉じ、全体的なフレームワークの堅牢性を高める。
論文 参考訳(メタデータ) (2023-12-03T07:22:42Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。
我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文 参考訳(メタデータ) (2023-01-31T18:59:22Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。