論文の概要: RobotDesignGPT: Automated Robot Design Synthesis using Vision Language Models
- arxiv url: http://arxiv.org/abs/2601.11801v1
- Date: Fri, 16 Jan 2026 22:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.328748
- Title: RobotDesignGPT: Automated Robot Design Synthesis using Vision Language Models
- Title(参考訳): RobotDesignGPT:視覚言語モデルを用いたロボット設計自動合成
- Authors: Nitish Sontakke, K. Niranjan Kumar, Sehoon Ha,
- Abstract要約: 本稿では,ロボット設計プロセスを自動化するための新しいロボット設計フレームワーク,RobotDesignGPTを提案する。
本フレームワークは,簡単なユーザプロンプト合成と参照画像から初期ロボット設計を合成する。
われわれのフレームワークは、脚のある動物から飛ぶ生物まで、自然に触発された視覚的に魅力的でキネマティックに有効なロボットを設計できることを実証する。
- 参考スコア(独自算出の注目度): 8.028867584692312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot design is a nontrivial process that involves careful consideration of multiple criteria, including user specifications, kinematic structures, and visual appearance. Therefore, the design process often relies heavily on domain expertise and significant human effort. The majority of current methods are rule-based, requiring the specification of a grammar or a set of primitive components and modules that can be composed to create a design. We propose a novel automated robot design framework, RobotDesignGPT, that leverages the general knowledge and reasoning capabilities of large pre-trained vision-language models to automate the robot design synthesis process. Our framework synthesizes an initial robot design from a simple user prompt and a reference image. Our novel visual feedback approach allows us to greatly improve the design quality and reduce unnecessary manual feedback. We demonstrate that our framework can design visually appealing and kinematically valid robots inspired by nature, ranging from legged animals to flying creatures. We justify the proposed framework by conducting an ablation study and a user study.
- Abstract(参考訳): ロボット設計は、ユーザ仕様、運動構造、視覚的外観など、複数の基準を慎重に考慮する非自明なプロセスである。
したがって、設計プロセスはドメインの専門知識と重要な人間の努力に大きく依存することが多い。
現在のメソッドの大部分はルールベースで、文法や設計を作成するために組み立てられるプリミティブなコンポーネントやモジュールのセットの仕様を必要とする。
本稿では,ロボット設計合成プロセスを自動化するために,大規模な事前学習型視覚言語モデルの一般的な知識と推論能力を活用する,新しいロボット設計フレームワークであるRobotDesignGPTを提案する。
本フレームワークは,簡単なユーザプロンプトと参照画像から初期ロボット設計を合成する。
私たちの新しい視覚フィードバックアプローチは、設計品質を大幅に改善し、不要な手動フィードバックを減らすことができます。
われわれのフレームワークは、脚のある動物から飛ぶ生物まで、自然に触発された視覚的に魅力的でキネマティックに有効なロボットを設計できることを実証する。
我々は、アブレーション研究とユーザ研究を行うことで、提案した枠組みを正当化する。
関連論文リスト
- RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video [56.9581053843815]
画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介する。
ロボットへの適応の欠如、手動のプロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処する。
それは、画像とビデオの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-28T07:51:02Z) - Large Language Models as Natural Selector for Embodied Soft Robot Design [5.023206838671049]
本稿では,大規模言語モデルがソフトロボット設計の表現を学習できるかどうかを評価する新しいベンチマークであるRoboCrafter-QAを紹介する。
実験の結果,これらのモデルが設計表現を学習する上で有望な能力を示す一方で,微妙な性能差を持つ設計の微妙な区別に苦慮していることが判明した。
論文 参考訳(メタデータ) (2025-03-04T03:55:10Z) - On the Exploration of LM-Based Soft Modular Robot Design [26.847859137653487]
大規模言語モデル(LLM)は、現実世界の知識をモデル化する上で有望な能力を示した。
本稿では,LLMを用いてソフトモジュールロボットの設計を支援する可能性について検討する。
本モデルは,一方向・二方向・階段移動機能を有するソフトモジュールロボットの設計において,優れた評価性能を発揮する。
論文 参考訳(メタデータ) (2024-11-01T04:03:05Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Controlling diverse robots by inferring Jacobian fields with deep networks [48.279199537720714]
自然生物の複雑な構造と多様な機能を反映することは、ロボット工学における長年の課題である。
本稿では,深層ニューラルネットワークを用いてロボットの映像ストリームをバイスモータヤコビアン場にマッピングする手法を提案する。
提案手法は,正確なクローズドループ制御を実現し,各ロボットの因果動的構造を復元する。
論文 参考訳(メタデータ) (2024-07-11T17:55:49Z) - Text2Robot: Evolutionary Robot Design from Text Descriptions [3.054307340752497]
ユーザテキスト仕様とパフォーマンス選好を物理的四足歩行ロボットに変換するフレームワークであるText2Robotを紹介した。
Text2Robotは、高速なプロトタイピングを可能にし、生成モデルによるロボットデザインの新しい機会を開く。
論文 参考訳(メタデータ) (2024-06-28T14:51:01Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。