論文の概要: Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration
- arxiv url: http://arxiv.org/abs/2406.14097v2
- Date: Mon, 1 Jul 2024 06:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:01:27.016657
- Title: Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration
- Title(参考訳): 人間とロボットの協調によるLLMロボット操作の強化
- Authors: Haokun Liu, Yaonan Zhu, Kenji Kato, Atsushi Tsukahara, Izumi Kondo, Tadayoshi Aoyama, Yasuhisa Hasegawa,
- Abstract要約: 大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。
本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しいアプローチを提案する。
このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
- 参考スコア(独自算出の注目度): 4.2460673279562755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are gaining popularity in the field of robotics. However, LLM-based robots are limited to simple, repetitive motions due to the poor integration between language models, robots, and the environment. This paper proposes a novel approach to enhance the performance of LLM-based autonomous manipulation through Human-Robot Collaboration (HRC). The approach involves using a prompted GPT-4 language model to decompose high-level language commands into sequences of motions that can be executed by the robot. The system also employs a YOLO-based perception algorithm, providing visual cues to the LLM, which aids in planning feasible motions within the specific environment. Additionally, an HRC method is proposed by combining teleoperation and Dynamic Movement Primitives (DMP), allowing the LLM-based robot to learn from human guidance. Real-world experiments have been conducted using the Toyota Human Support Robot for manipulation tasks. The outcomes indicate that tasks requiring complex trajectory planning and reasoning over environments can be efficiently accomplished through the incorporation of human demonstrations.
- Abstract(参考訳): 大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。
しかし,LLMをベースとしたロボットは,言語モデルやロボット,環境との連携が不十分なため,単純かつ反復的な動作に限られる。
本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しい手法を提案する。
このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
このシステムは、YOLOベースの知覚アルゴリズムも採用しており、特定の環境内で実行可能な動きを計画するのに役立つLCMに視覚的手がかりを提供する。
さらに, 遠隔操作と動的移動プリミティブ(DMP)を組み合わせることで, LLMをベースとしたロボットが人間の指導から学べるようにすることで, HRC法を提案する。
トヨタ・ヒューマン・サポート・ロボットを用いた実世界実験が実施されている。
その結果、複雑な軌道計画や環境に対する推論を必要とするタスクは、人間の実演を取り入れることで効率よく達成できることが示唆された。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Robots Can Multitask Too: Integrating a Memory Architecture and LLMs for Enhanced Cross-Task Robot Action Generation [13.181465089984567]
大規模言語モデル(LLM)は、ロボットの知覚と身体能力による常識推論の基盤となるロボット応用に最近使用されている。
本稿では,タスク間を効果的に切り替える一方で,タスク間動作を生成するためのLLMをメモリプロセスに組み込むことに対処する。
その結果,5つのロボットタスクのベースラインよりも性能が大幅に向上し,ロボットの動作と適応タスク実行の知覚を組み合わせたLLMにメモリを統合する可能性が示された。
論文 参考訳(メタデータ) (2024-07-18T13:38:21Z) - LIT: Large Language Model Driven Intention Tracking for Proactive Human-Robot Collaboration -- A Robot Sous-Chef Application [4.519544934630495]
大型言語モデル (LLM) と視覚言語モデル (VLM) は、ロボットが自然言語のプロンプトを制御アクションに接地できるようにする。
言語駆動型意図追跡(LIT)は,人間の長期動作をモデル化し,ロボットを積極的に協調するための次の人間の意図を予測する。
論文 参考訳(メタデータ) (2024-06-19T19:18:40Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - Prompt a Robot to Walk with Large Language Models [18.214609570837403]
巨大な言語モデル(LLM)は、大規模なインターネットスケールのデータで事前訓練されている。
物理的環境から収集した数発のプロンプトを使用する新しいパラダイムを導入する。
様々なロボットと環境をまたいだ実験により、我々の手法がロボットに歩行を効果的に促すことが検証された。
論文 参考訳(メタデータ) (2023-09-18T17:50:17Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - LLM-Based Human-Robot Collaboration Framework for Manipulation Tasks [4.4589894340260585]
本稿では,Large Language Model (LLM) を用いた自律型ロボット操作の論理推論手法を提案する。
提案システムは,LLMとYOLOに基づく環境認識を組み合わせることで,ロボットが自律的に合理的な意思決定を行えるようにする。
論文 参考訳(メタデータ) (2023-08-29T01:54:49Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Show Me What You Can Do: Capability Calibration on Reachable Workspace
for Human-Robot Collaboration [83.4081612443128]
本稿では,REMPを用いた短時間キャリブレーションにより,ロボットが到達できると考える非専門家と地道とのギャップを効果的に埋めることができることを示す。
この校正手順は,ユーザ認識の向上だけでなく,人間とロボットのコラボレーションの効率化にも寄与することを示す。
論文 参考訳(メタデータ) (2021-03-06T09:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。