論文の概要: RoboGround: Robotic Manipulation with Grounded Vision-Language Priors
- arxiv url: http://arxiv.org/abs/2504.21530v1
- Date: Wed, 30 Apr 2025 11:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 19:12:20.692172
- Title: RoboGround: Robotic Manipulation with Grounded Vision-Language Priors
- Title(参考訳): RoboGround: 接地型ビジョンランゲージによるロボットマニピュレーション
- Authors: Haifeng Huang, Xinyi Chen, Yilun Chen, Hao Li, Xiaoshen Han, Zehan Wang, Tai Wang, Jiangmiao Pang, Zhou Zhao,
- Abstract要約: 本研究では,効果的な中間表現としての接地マスクについて検討する。
我々は、接地型ロボット操作システムであるRoboGroundを紹介する。
一般化をさらに探求し、拡張するために、大規模なシミュレーションデータを生成する自動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 59.31993241876335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in robotic manipulation have highlighted the potential of intermediate representations for improving policy generalization. In this work, we explore grounding masks as an effective intermediate representation, balancing two key advantages: (1) effective spatial guidance that specifies target objects and placement areas while also conveying information about object shape and size, and (2) broad generalization potential driven by large-scale vision-language models pretrained on diverse grounding datasets. We introduce RoboGround, a grounding-aware robotic manipulation system that leverages grounding masks as an intermediate representation to guide policy networks in object manipulation tasks. To further explore and enhance generalization, we propose an automated pipeline for generating large-scale, simulated data with a diverse set of objects and instructions. Extensive experiments show the value of our dataset and the effectiveness of grounding masks as intermediate guidance, significantly enhancing the generalization abilities of robot policies.
- Abstract(参考訳): ロボット操作の最近の進歩は、政策一般化を改善するための中間表現の可能性を強調している。
本研究では,(1)対象物と配置領域を識別する効果的な空間ガイダンスと,(2)多様な接地データセットに事前訓練された大規模視覚言語モデルによって駆動される広範囲な一般化ポテンシャルの2つの利点をバランスさせて,効果的な中間表現としての接地マスクについて検討する。
本稿では,オブジェクト操作タスクにおけるポリシーネットワークをガイドする中間表現としてグラウンドマスクを活用する,グラウンド認識型ロボット操作システムであるRoboGroundを紹介する。
一般化をさらに探求し、拡張するために、多種多様なオブジェクトと命令で大規模でシミュレーションされたデータを生成する自動パイプラインを提案する。
大規模な実験により,ロボットポリシーの一般化能力を大幅に向上させ,中間指導としてのデータセットの価値とグラウンドキングマスクの有効性が示された。
関連論文リスト
- A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation? [17.356760351203715]
本稿では,調音対象の最適相互作用領域を予測するためのフレームワークであるManipGPTを紹介する。
我々は、シミュレートされた9.9kの画像と実際の画像のデータセットを作成し、シミュレートとリアルのギャップを埋めた。
我々は,ロボット操作のシナリオに対して,モデルのコンテキスト内セグメンテーション機能を適用することにより,部分レベルの割当セグメンテーションを大幅に改善した。
論文 参考訳(メタデータ) (2024-12-13T11:22:01Z) - P3-PO: Prescriptive Point Priors for Visuo-Spatial Generalization of Robot Policies [19.12762500264209]
Prescriptive Point Priors for Policies(P3-PO)は、環境のユニークな状態表現を構築する新しいフレームワークである。
P3-POは、新しいオブジェクトインスタンスとより散らかった環境のために、タスク全体で58%と80%のゲインを示す。
論文 参考訳(メタデータ) (2024-12-09T18:59:42Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。