論文の概要: Evolution 6.0: Evolving Robotic Capabilities Through Generative Design
- arxiv url: http://arxiv.org/abs/2502.17034v1
- Date: Mon, 24 Feb 2025 10:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:47.305536
- Title: Evolution 6.0: Evolving Robotic Capabilities Through Generative Design
- Title(参考訳): Evolution 6.0: ジェネレーティブデザインによるロボット能力の進化
- Authors: Muhammad Haris Khan, Artyom Myshlyaev, Artyom Lykov, Miguel Altamirano Cabrera, Dzmitry Tsetserukou,
- Abstract要約: Evolution 6.0は、VLM(Vision-Language Models)、VLA(Vision-Language Action)モデル、およびツール設計とタスク実行のためのText-to-3D生成モデルを利用した自律型ロボットシステムである。
このシステムには、視覚とテキストのデータからタスク固有のツールを作成するツール生成モジュールと、自然言語命令をロボットアクションに変換するアクション生成モジュールの2つの重要なモジュールが含まれている。
- 参考スコア(独自算出の注目度): 8.859506880368027
- License:
- Abstract: We propose a new concept, Evolution 6.0, which represents the evolution of robotics driven by Generative AI. When a robot lacks the necessary tools to accomplish a task requested by a human, it autonomously designs the required instruments and learns how to use them to achieve the goal. Evolution 6.0 is an autonomous robotic system powered by Vision-Language Models (VLMs), Vision-Language Action (VLA) models, and Text-to-3D generative models for tool design and task execution. The system comprises two key modules: the Tool Generation Module, which fabricates task-specific tools from visual and textual data, and the Action Generation Module, which converts natural language instructions into robotic actions. It integrates QwenVLM for environmental understanding, OpenVLA for task execution, and Llama-Mesh for 3D tool generation. Evaluation results demonstrate a 90% success rate for tool generation with a 10-second inference time, and action generation achieving 83.5% in physical and visual generalization, 70% in motion generalization, and 37% in semantic generalization. Future improvements will focus on bimanual manipulation, expanded task capabilities, and enhanced environmental interpretation to improve real-world adaptability.
- Abstract(参考訳): 我々は、ジェネレーティブAIによって駆動されるロボットの進化を表す新しい概念であるEvolution 6.0を提案する。
ロボットが人間の要求するタスクを達成するために必要なツールを欠いている場合、必要な楽器を自律的に設計し、目標を達成するためにそれらを使用する方法を学ぶ。
Evolution 6.0は、VLM(Vision-Language Models)、VLA(Vision-Language Action)モデル、およびツール設計とタスク実行のためのText-to-3D生成モデルを利用した自律型ロボットシステムである。
このシステムには、視覚とテキストのデータからタスク固有のツールを作成するツール生成モジュールと、自然言語命令をロボットアクションに変換するアクション生成モジュールの2つの重要なモジュールが含まれている。
QwenVLMを環境理解に、OpenVLAをタスク実行に、Llama-Meshを3Dツール生成に統合する。
評価結果は、10秒の推論時間でツール生成が90%成功し、身体的および視覚的一般化が83.5%、運動的一般化が70%、意味的一般化が37%に達したことを示す。
今後の改善は、実世界の適応性を改善するために、バイマニュアル操作、タスク能力の拡張、環境解釈の強化に焦点を当てる。
関連論文リスト
- LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - RoboCoder: Robotic Learning from Basic Skills to General Tasks with Large Language Models [49.23588578549434]
大規模言語モデル(LLM)はロボットタスクの見通しを改善した。
既存のベンチマークはまだ、一般化機能に制限のある単一のタスクに限られている。
包括的なベンチマークと自律学習フレームワークであるRoboCoderを紹介します。
論文 参考訳(メタデータ) (2024-06-06T05:41:47Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。
汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。
VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Gen2Sim: Scaling up Robot Learning in Simulation with Generative Models [17.757495961816783]
Gen2Simは、3Dアセット、タスク記述、タスク分解、報酬関数の自動生成によるシミュレーションにおけるロボットスキル学習のスケールアップ方法である。
私たちの研究は、シミュレーションにおける完全に自律的なロボット操作スキル獲得に向けて、何百ものシミュレーション資産、タスク、デモに貢献しています。
論文 参考訳(メタデータ) (2023-10-27T17:55:32Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation [11.92150014766458]
我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。
我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。
モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
論文 参考訳(メタデータ) (2022-06-17T03:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。