論文の概要: Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations
- arxiv url: http://arxiv.org/abs/2603.07866v1
- Date: Mon, 09 Mar 2026 00:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.329646
- Title: Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations
- Title(参考訳): VLMと部分観察を用いた視点非依存グラフパイプライン
- Authors: Dilermando Almeida, Juliano Negri, Guilherme Lazzarini, Thiago H. Segreto, Ranulfo Bezerra, Ricardo V. Godoy, Marcelo Becker,
- Abstract要約: 本稿では,言語誘導型把握のためのエンドツーエンドパイプラインを提案し,実際のロボット上での動作を安全に把握するために,自由語彙選択をブリッジする。
自然言語コマンドを与えられたシステムは、オープン語彙検出と即時インスタンスセグメンテーションを使用して、ターゲットをRGBにグラウンドする。
次に、衝突フィルタ6-DoFグルーピング候補を生成し、到達可能性、アプローチ可能性、クリアランスを考慮に入れた安全指向のグルーピングを用いて実行可能なグルーピングを選択する。
- 参考スコア(独自算出の注目度): 0.6263680699548958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust grasping in cluttered, unstructured environments remains challenging for mobile legged manipulators due to occlusions that lead to partial observations, unreliable depth estimates, and the need for collision-free, execution-feasible approaches. In this paper we present an end-to-end pipeline for language-guided grasping that bridges open-vocabulary target selection to safe grasp execution on a real robot. Given a natural-language command, the system grounds the target in RGB using open-vocabulary detection and promptable instance segmentation, extracts an object-centric point cloud from RGB-D, and improves geometric reliability under occlusion via back-projected depth compensation and two-stage point cloud completion. We then generate and collision-filter 6-DoF grasp candidates and select an executable grasp using safety-oriented heuristics that account for reachability, approach feasibility, and clearance. We evaluate the method on a quadruped robot with an arm in two cluttered tabletop scenarios, using paired trials against a view-dependent baseline. The proposed approach achieves a 90% overall success rate (9/10) against 30% (3/10) for the baseline, demonstrating substantially improved robustness to occlusions and partial observations in clutter.
- Abstract(参考訳): 乱雑で非構造的な環境におけるロバストな把握は、部分的な観察、信頼できない深さ推定、衝突のない実行可能なアプローチの必要性により、移動脚マニピュレータにとって依然として困難である。
本稿では,言語誘導型把握のためのエンドツーエンドパイプラインを提案する。
自然言語コマンドが与えられた場合、オープン語彙検出とアクセラブルなインスタンスセグメンテーションを用いてRGBをターゲットとし、RGB-Dからオブジェクト中心のポイントクラウドを抽出し、バックプロジェクションされた深さ補正と2段階のポイントクラウド補完によって閉塞下での幾何学的信頼性を向上させる。
次に, 到達可能性, 到達可能性, 到達可能性, クリアランスを考慮した安全指向ヒューリスティックスを用いて, 6-DoFグルーピング候補を生成し, 実行可能なグルーピングを選択する。
ビュー依存ベースラインに対するペアトライアルを用いて、2つの乱雑なテーブルトップシナリオにおいて、腕を持つ四足歩行ロボットの手法を評価する。
提案手法は, ベースラインの30% (3/10) に対して90%の総合的な成功率 (9/10) を達成した。
関連論文リスト
- Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation [14.262846967061947]
微粒化対応ポース推定(FiCoP)は、ノイズの発するグローバルマッチングから空間的に制約されたパッチレベル対応へ移行するフレームワークである。
FiCoPは、最先端の手法と比較して平均リコールを8.0%と6.1%改善する。
論文 参考訳(メタデータ) (2026-01-20T03:48:54Z) - Into the Unknown: Towards using Generative Models for Sampling Priors of Environment Uncertainty for Planning in Configuration Spaces [28.37021202108478]
事前は部分的な可観測性の下での計画には不可欠だが、実際は入手が困難である。
本稿では, 大規模事前学習モデルを用いて, ゼロショット方式で事前生成を行う確率論的パイプラインを提案する。
我々は、ロボットが観測されていない対象物にナビゲートする必要がある戸口を通して部分的に見える部屋のMatterport3Dベンチマークを構築した。
論文 参考訳(メタデータ) (2025-10-13T05:08:48Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - CurbNet: Curb Detection Framework Based on LiDAR Point Cloud Segmentation [8.502741852406904]
本稿では,ポイントクラウドセグメンテーションを利用した検出を抑える新しいフレームワークであるCurbNetを紹介する。
我々はセマンティックKITTIをベースとした3D-Curbデータセットを開発した。
xy平面上の凹凸特性の不均一分布と、z軸に沿った高周波特性への依存による課題に対処するため、マルチスケール・チャネルアテンション(MSCA)モジュールを導入する。
論文 参考訳(メタデータ) (2024-03-25T14:13:09Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - ContrastMotion: Self-supervised Scene Motion Learning for Large-Scale
LiDAR Point Clouds [21.6511040107249]
BEV表現を用いたLiDARに基づく自律走行のための新しい自律走行推定器を提案する。
連続するフレームにおける柱間の特徴レベルの整合性によるシーンの動きを予測し,ダイナミックなシーンにおけるノイズポイントや視点変化点雲の影響を解消する。
論文 参考訳(メタデータ) (2023-04-25T05:46:24Z) - Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit
Neural Representation [79.60988242843437]
そこで本研究では,自己監督型および倍率フレキシブルな点雲を同時にアップサンプリングする手法を提案する。
実験結果から, 自己教師あり学習に基づく手法は, 教師あり学習に基づく手法よりも, 競争力や性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-18T07:18:25Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z) - Robust 6D Object Pose Estimation by Learning RGB-D Features [59.580366107770764]
本稿では、この局所最適問題を解くために、回転回帰のための離散連続的な新しい定式化を提案する。
我々はSO(3)の回転アンカーを均一にサンプリングし、各アンカーから目標への制約付き偏差を予測し、最適な予測を選択するための不確実性スコアを出力する。
LINEMOD と YCB-Video の2つのベンチマーク実験により,提案手法が最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-02-29T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。