論文の概要: VLAD-Grasp: Zero-shot Grasp Detection via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.05791v1
- Date: Sat, 08 Nov 2025 01:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.579434
- Title: VLAD-Grasp: Zero-shot Grasp Detection via Vision-Language Models
- Title(参考訳): VLAD-Grasp:視覚言語モデルによるゼロショットグラフ検出
- Authors: Manav Kulshrestha, S. Talha Bukhari, Damon Conover, Aniket Bera,
- Abstract要約: VLAD-Graspは視覚言語モデルを用いたゼロショットによる把握手法である。
従来の作業とは異なり、我々のアプローチはトレーニング不要であり、キュレートされた把握データセットに依存しない。
さらに,Franka Research 3ロボットを用いた新しい現実世界オブジェクトへのゼロショットの一般化を実証する。
- 参考スコア(独自算出の注目度): 11.02910353976723
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robotic grasping is a fundamental capability for autonomous manipulation; however, most existing methods rely on large-scale expert annotations and necessitate retraining to handle new objects. We present VLAD-Grasp, a Vision-Language model Assisted zero-shot approach for Detecting grasps. From a single RGB-D image, our method (1) prompts a large vision-language model to generate a goal image where a straight rod "impales" the object, representing an antipodal grasp, (2) predicts depth and segmentation to lift this generated image into 3D, and (3) aligns generated and observed object point clouds via principal component analysis and correspondence-free optimization to recover an executable grasp pose. Unlike prior work, our approach is training-free and does not rely on curated grasp datasets. Despite this, VLAD-Grasp achieves performance that is competitive with or superior to that of state-of-the-art supervised models on the Cornell and Jacquard datasets. We further demonstrate zero-shot generalization to novel real-world objects on a Franka Research 3 robot, highlighting vision-language foundation models as powerful priors for robotic manipulation.
- Abstract(参考訳): ロボットの把握は自律的な操作の基本的な能力であるが、既存のほとんどの手法は大規模な専門家のアノテーションに依存し、新しいオブジェクトを扱うために再訓練を必要とする。
VLAD-Grasp, 視覚言語モデルを用いたゼロショットによるグリップ検出手法を提案する。
単一のRGB-D画像から,本手法は,対象物が対足的把握を示すストレートロッドを「具現化」する目標画像を生成するために,大きな視覚言語モデルに促される。(2) 生成した画像が3Dに引き上げられる深さとセグメンテーションを予測し,(3) 主成分分析と対応なしの最適化により生成および観測対象点雲を整列させて,実行可能な把握ポーズを復元する。
従来の作業とは異なり、我々のアプローチはトレーニング不要であり、キュレートされた把握データセットに依存しない。
これにもかかわらず、VLAD-Graspは、コーネルとジャカードのデータセットにおける最先端の教師付きモデルと競合する、あるいは優れているパフォーマンスを達成する。
さらに、Franka Research 3ロボット上の新しい現実世界オブジェクトへのゼロショットの一般化を実証し、視覚言語の基礎モデルをロボット操作の強力な先駆者として強調する。
関連論文リスト
- Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文 参考訳(メタデータ) (2025-06-11T17:23:21Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。