論文の概要: Grasp-Anything: Large-scale Grasp Dataset from Foundation Models
- arxiv url: http://arxiv.org/abs/2309.09818v1
- Date: Mon, 18 Sep 2023 14:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:01:57.507603
- Title: Grasp-Anything: Large-scale Grasp Dataset from Foundation Models
- Title(参考訳): Grasp-Anything: 基礎モデルによる大規模Graspデータセット
- Authors: An Dinh Vuong, Minh Nhat Vu, Hieu Le, Baoru Huang, Binh Huynh, Thieu
Vo, Andreas Kugi, Anh Nguyen
- Abstract要約: ファンデーションモデルは、日々の生活で遭遇するオブジェクトを含む、現実世界の知識の広範なリポジトリを持っています。
このソリューションを実装するために,基礎モデルから合成した大規模グリップデータセットであるGrasp-Anythingを提案する。
本研究では,Grasp-Anythingが視覚に基づくタスクや実世界のロボット実験において,ゼロショットの把握を容易にすることを示す。
- 参考スコア(独自算出の注目度): 15.17542697393971
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models such as ChatGPT have made significant strides in robotic
tasks due to their universal representation of real-world domains. In this
paper, we leverage foundation models to tackle grasp detection, a persistent
challenge in robotics with broad industrial applications. Despite numerous
grasp datasets, their object diversity remains limited compared to real-world
figures. Fortunately, foundation models possess an extensive repository of
real-world knowledge, including objects we encounter in our daily lives. As a
consequence, a promising solution to the limited representation in previous
grasp datasets is to harness the universal knowledge embedded in these
foundation models. We present Grasp-Anything, a new large-scale grasp dataset
synthesized from foundation models to implement this solution. Grasp-Anything
excels in diversity and magnitude, boasting 1M samples with text descriptions
and more than 3M objects, surpassing prior datasets. Empirically, we show that
Grasp-Anything successfully facilitates zero-shot grasp detection on
vision-based tasks and real-world robotic experiments. Our dataset and code are
available at https://grasp-anything-2023.github.io.
- Abstract(参考訳): ChatGPTのような基礎モデルは、現実世界のドメインの普遍的な表現のため、ロボットタスクにおいて大きな進歩を遂げている。
本稿では,幅広い産業応用のロボット工学における永続的課題である把握検出のための基礎モデルを活用する。
多数の把握データセットにもかかわらず、そのオブジェクトの多様性は現実世界の数字と比べても限られている。
幸いなことに、ファンデーションモデルには、私たちの日常生活で遭遇するオブジェクトを含む、現実世界の知識の広範なリポジトリがあります。
その結果、以前の把握データセットにおける限定表現に対する有望な解決策は、これらの基礎モデルに埋め込まれた普遍的な知識を活用することである。
そこで本研究では,基礎モデルから合成した大規模把持データセットであるgrab-anythingを提案する。
Grasp-Anythingは多様性と規模に優れており、100万のサンプルにテキスト記述と3万以上のオブジェクトがあり、以前のデータセットを上回っている。
実世界ロボット実験と視覚に基づくタスクにおけるゼロショット把持検出が,把持が効果的であることを示す。
私たちのデータセットとコードはhttps://grasp-anything-2023.github.ioで利用可能です。
関連論文リスト
- Adapting a Foundation Model for Space-based Tasks [16.81793096235458]
宇宙ロボティクスの将来において、宇宙ベースのアプリケーションに適応した基礎モデルの使用を動機付ける3つのコア課題が見られます。
本研究では,1)既存の視覚言語モデルは空間ベースアプリケーションでは不十分な視覚推論モデルであり,2)地球外データ上での視覚言語モデルの微調整は応答の質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-08-12T05:07:24Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - A Review of Deep Learning Techniques for Markerless Human Motion on
Synthetic Datasets [0.0]
近年,人間の姿勢推定がコンピュータビジョンコミュニティで注目を集めている。
2次元画像のみに基づくアニメーションの骨格を予測できるモデルを提案する。
実装プロセスは、独自のデータセットにDeepLabCutを使用して、多くの必要なステップを実行する。
論文 参考訳(メタデータ) (2022-01-07T15:42:50Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。