論文の概要: AdaClearGrasp: Learning Adaptive Clearing for Zero-Shot Robust Dexterous Grasping in Densely Cluttered Environments
- arxiv url: http://arxiv.org/abs/2603.10616v1
- Date: Wed, 11 Mar 2026 10:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.675151
- Title: AdaClearGrasp: Learning Adaptive Clearing for Zero-Shot Robust Dexterous Grasping in Densely Cluttered Environments
- Title(参考訳): AdaClearGrasp: きめ細かい環境下でのゼロショットロバストデキステラスグラスピングのための学習適応クリアリング
- Authors: Zixuan Chen, Wenquan Zhang, Jing Fang, Ruiming Zeng, Zhixuan Xu, Yiwen Hou, Xinke Wang, Jieqi Shi, Jing Huo, Yang Gao,
- Abstract要約: AdaClearGraspは、適応的クリアリングとゼロショットデクスタラスグルーピングのためのクローズドループ決定実行フレームワークである。
事前学習された視覚言語モデル(VLM)は、視覚観察と言語タスク記述を解釈し、把握された干渉について推論する。
視覚的なフィードバックは結果を監視し、失敗時にリプランングをトリガーし、クローズドループ補正メカニズムを形成する。
- 参考スコア(独自算出の注目度): 31.097251477695497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In densely cluttered environments, physical interference, visual occlusions, and unstable contacts often cause direct dexterous grasping to fail, while aggressive singulation strategies may compromise safety. Enabling robots to adaptively decide whether to clear surrounding objects or directly grasp the target is therefore crucial for robust manipulation. We propose AdaClearGrasp, a closed-loop decision-execution framework for adaptive clearing and zero-shot dexterous grasping in densely cluttered environments. The framework formulates manipulation as a controllable high-level decision process that determines whether to directly grasp the target or first clear surrounding objects. A pretrained vision-language model (VLM) interprets visual observations and language task descriptions to reason about grasp interference and generate a high-level planning skeleton, which invokes structured atomic skills through a unified action interface. For dexterous grasping, we train a reinforcement learning policy with a relative hand-object distance representation, enabling zero-shot generalization across diverse object geometries and physical properties. During execution, visual feedback monitors outcomes and triggers replanning upon failures, forming a closed-loop correction mechanism. To evaluate language-conditioned dexterous grasping in clutter, we introduce Clutter-Bench, the first simulation benchmark with graded clutter complexity. It includes seven target objects across three clutter levels, yielding 210 task scenarios. We further perform sim-to-real experiments on three objects under three clutter levels (18 scenarios). Results demonstrate that AdaClearGrasp significantly improves grasp success rates in densely cluttered environments. For more videos and code, please visit our project website: https://chenzixuan99.github.io/adaclear-grasp.github.io/.
- Abstract(参考訳): 密散した環境では、身体的干渉、視覚的閉塞、不安定な接触がしばしば直接のきめ細やかな把握を失敗させるが、攻撃的な歌唱戦略は安全性を損なうことがある。
したがって、ロボットが周囲の物体をクリアするか、ターゲットを直接把握するかを適応的に決定することは、堅牢な操作に不可欠である。
AdaClearGraspは密集した環境下での適応的クリアリングとゼロショットデクスタラスグリップのためのクローズドループ決定実行フレームワークである。
フレームワークは、操作を制御可能な高レベル決定プロセスとして定式化し、ターゲットを直接把握するか、または、最初に周囲のオブジェクトをクリアするかを決定する。
事前学習された視覚言語モデル(VLM)は、視覚観察と言語タスク記述を解釈して、把握された干渉を推論し、統合されたアクションインターフェースを通じて構造化された原子スキルを呼び出す高レベルな計画スケルトンを生成する。
そこで我々は,手動物体距離を相対的に表現した強化学習政策を訓練し,多様な対象空間と物理特性をまたいだゼロショットの一般化を可能にした。
実行中、視覚フィードバックは結果を監視し、失敗時にリプランングをトリガーし、クローズドループ補正メカニズムを形成する。
クラッタにおける言語条件付きデキスタラスグルーピングを評価するために,クラッタ・ベンチ(Clutter-Bench)を導入した。
対象のオブジェクトは3つの乱雑なレベルに7つあり、210のタスクシナリオをもたらす。
さらに、3つのクラッタレベル (18 シナリオ) の3つのオブジェクトに対してsim-to-real 実験を行う。
その結果,AdaClearGraspは密散した環境下での把握成功率を著しく向上させることがわかった。
詳細については、プロジェクトのWebサイト(https://chenzixuan99.github.io/adaclear-grasp.github.io/)を参照してほしい。
関連論文リスト
- AeroGrab: A Unified Framework for Aerial Grasping in Cluttered Environments [0.5377664327091393]
乱雑な環境下での信頼性の高い空中把握のための統合パイプラインを提案する。
システムは対象オブジェクトを特定し、オブジェクトのより良いビューを得るために積極的に探索する。
乱雑な実世界のシナリオにおける実験は、堅牢で信頼性の高い把握実行を示している。
論文 参考訳(メタデータ) (2026-03-16T10:50:03Z) - Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining [59.2578488860426]
不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
論文 参考訳(メタデータ) (2026-03-02T11:38:12Z) - Grasp-MPC: Closed-Loop Visual Grasping via Value-Guided Model Predictive Control [24.588260602136867]
乱雑な環境下での新規物体に対する閉ループ視覚に基づく把握ポリシーであるGrasp-MPCを提案する。
Grasp-MPCは200万のグリップ軌跡からなる大規模な合成データセットから視覚観測に基づいて訓練された値関数を組み込んでいる。
FetchBench上でのGrasp-MPCと,各種環境における実環境設定の評価を行った。
論文 参考訳(メタデータ) (2025-09-07T20:28:21Z) - Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter [59.69563889773648]
本研究では,ロボットが対象物を開き散らかし,特定の場所に移動させるという,言語条件のピック・アンド・プレイス作業について検討する。
いくつかのアプローチは、ビジョンファウンデーションモデルから機能を使ってエンドツーエンドのポリシーを学び、大きなデータセットを必要とする。
本研究では,無条件動作先行と3次元視覚言語先行とを1つの注意層から学習することで協調する行動先行アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T14:20:33Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Self-Supervised Interactive Object Segmentation Through a
Singulation-and-Grasping Approach [9.029861710944704]
本稿では,新しいオブジェクトと対話し,各オブジェクトのトレーニングラベルを収集するロボット学習手法を提案する。
Singulation-and-Grasping(SaG)ポリシは、エンドツーエンドの強化学習を通じてトレーニングされる。
本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。
論文 参考訳(メタデータ) (2022-07-19T15:01:36Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。