論文の概要: GRS: Generating Robotic Simulation Tasks from Real-World Images
- arxiv url: http://arxiv.org/abs/2410.15536v1
- Date: Sun, 20 Oct 2024 23:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:13.318443
- Title: GRS: Generating Robotic Simulation Tasks from Real-World Images
- Title(参考訳): GRS:実世界の画像からロボットシミュレーションタスクを生成する
- Authors: Alex Zook, Fan-Yun Sun, Josef Spjut, Valts Blukis, Stan Birchfield, Jonathan Tremblay,
- Abstract要約: GRS(Generating Robotic Simulation task)は、ロボット工学、コンピュータビジョン、AR/VRにおけるリアル・トゥ・シモンの課題に対処する新しいシステムである。
我々は、最先端のビジョン言語モデル(VLM)を使用して、包括的なリアルタイムパイプラインを実現する。
1)オブジェクトセグメンテーションのためのSAM2を用いたシーン理解,2)識別されたオブジェクトとシミュレーション可能なアセットとのマッチング,3)コンテキストに適したロボットタスクを生成する。
- 参考スコア(独自算出の注目度): 18.64560477109255
- License:
- Abstract: We introduce GRS (Generating Robotic Simulation tasks), a novel system to address the challenge of real-to-sim in robotics, computer vision, and AR/VR. GRS enables the creation of digital twin simulations from single real-world RGB-D observations, complete with diverse, solvable tasks for virtual agent training. We use state-of-the-art vision-language models (VLMs) to achieve a comprehensive real-to-sim pipeline. GRS operates in three stages: 1) scene comprehension using SAM2 for object segmentation and VLMs for object description, 2) matching identified objects with simulation-ready assets, and 3) generating contextually appropriate robotic tasks. Our approach ensures simulations align with task specifications by generating test suites designed to verify adherence to the task specification. We introduce a router that iteratively refines the simulation and test code to ensure the simulation is solvable by a robot policy while remaining aligned to the task specification. Our experiments demonstrate the system's efficacy in accurately identifying object correspondence, which allows us to generate task environments that closely match input environments, and enhance automated simulation task generation through our novel router mechanism.
- Abstract(参考訳): GRS(Generating Robotic Simulation task)は,ロボット工学,コンピュータビジョン,AR/VRにおけるリアル・トゥ・シムの課題に対処する新しいシステムである。
GRSは、仮想エージェントトレーニングのための多様な解決可能なタスクを完備した、単一の現実世界のRGB-D観測からデジタルツインシミュレーションを作成することができる。
我々は、最先端のビジョン言語モデル(VLM)を使用して、包括的なリアルタイムパイプラインを実現する。
GRSは以下の3段階で動作する。
1)オブジェクトセグメンテーションのためのSAM2とオブジェクト記述のためのVLMを用いたシーン理解。
2 特定対象物とシミュレーション可能な資産との整合
3)文脈的に適切なロボットタスクを生成する。
提案手法は,タスク仕様の適合性を検証するために設計されたテストスイートを生成することにより,タスク仕様とシミュレーションの整合性を確保する。
タスク仕様に整合しながら,ロボットポリシーによってシミュレーションが解決可能であることを保証するために,シミュレーションとテストコードを反復的に洗練するルータを導入する。
実験では,入力環境と密に一致したタスク環境を生成し,新しいルータ機構による自動シミュレーションタスク生成を向上する,オブジェクト対応を正確に識別するシステムの有効性を実証した。
関連論文リスト
- DrEureka: Language Model Guided Sim-To-Real Transfer [64.14314476811806]
シミュレーションで学んだ政策を現実世界に伝達することは、ロボットのスキルを大規模に獲得する上で有望な戦略である。
本稿では,Large Language Models (LLMs) を用いてシム・トゥ・リアル設計の自動化と高速化を行う。
本手法では,ヨガボールの上を歩行する四足歩行や四足歩行など,新しいロボットタスクを解くことができる。
論文 参考訳(メタデータ) (2024-06-04T04:53:05Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Gen2Sim: Scaling up Robot Learning in Simulation with Generative Models [17.757495961816783]
Gen2Simは、3Dアセット、タスク記述、タスク分解、報酬関数の自動生成によるシミュレーションにおけるロボットスキル学習のスケールアップ方法である。
私たちの研究は、シミュレーションにおける完全に自律的なロボット操作スキル獲得に向けて、何百ものシミュレーション資産、タスク、デモに貢献しています。
論文 参考訳(メタデータ) (2023-10-27T17:55:32Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - Learning Sim-to-Real Dense Object Descriptors for Robotic Manipulation [4.7246285569677315]
我々はSim-to-Real Dense Object Nets(SRDONs)という,オブジェクトを適切な表現で理解するだけでなく,シミュレートされた実データをピクセル整合性を持った統一された特徴空間にマップする,高密度オブジェクト記述子を提案する。
本研究では,事前学習したSRDONが実世界の訓練をゼロにした各種ロボット作業において,見えない物体や見えない視覚環境の性能を著しく向上させる実験を行った。
論文 参考訳(メタデータ) (2023-04-18T02:28:55Z) - SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional,
and Incremental Robot Learning [41.19148076789516]
上記の4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。
本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。
そのロボットは、対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。
論文 参考訳(メタデータ) (2021-11-29T16:53:49Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。