論文の概要: TypeFly: Flying Drones with Large Language Model
- arxiv url: http://arxiv.org/abs/2312.14950v2
- Date: Thu, 26 Sep 2024 15:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:05:28.618826
- Title: TypeFly: Flying Drones with Large Language Model
- Title(参考訳): TypeFly:大きな言語モデルでドローンを飛ばす
- Authors: Guojun Chen, Xiaojing Yu, Neiwen Ling, Lin Zhong,
- Abstract要約: 移動ロボットを含むリアルタイムおよびインタラクティブなアプリケーションでは、シーケンシャルトークン生成プロセスにはかなりのレイテンシが伴う。
本稿では,MiniSpecという新しいプログラミング言語と,その実行環境を組み合わせたChatFlyを提案する。
すなわち、LLMに人気のあるPythonでプログラム(ロボティックプラン)を書く代わりに、ChatFlyはトークン効率とストリーム解釈のために特別に設計されたMiniSpecでプログラムを実行できる。
- 参考スコア(独自算出の注目度): 2.3413418672871495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in robot control using large language models (LLMs) have demonstrated significant potential, primarily due to LLMs' capabilities to understand natural language commands and generate executable plans in various languages. However, in real-time and interactive applications involving mobile robots, particularly drones, the sequential token generation process inherent to LLMs introduces substantial latency, i.e. response time, in control plan generation. In this paper, we present a system called ChatFly that tackles this problem using a combination of a novel programming language called MiniSpec and its runtime to reduce the plan generation time and drone response time. That is, instead of asking an LLM to write a program (robotic plan) in the popular but verbose Python, ChatFly gets it to do it in MiniSpec specially designed for token efficiency and stream interpretation. Using a set of challenging drone tasks, we show that design choices made by ChatFly can reduce up to 62% response time and provide a more consistent user experience, enabling responsive and intelligent LLM-based drone control with efficient completion.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いたロボット制御の最近の進歩は、LLMが自然言語コマンドを理解し、様々な言語で実行可能な計画を生成する能力によって、大きな可能性を秘めている。
しかし、移動ロボット、特にドローンを含むリアルタイムおよびインタラクティブなアプリケーションでは、LSM固有のシーケンシャルトークン生成プロセスは、応答時間、すなわち制御計画生成にかなりの遅延をもたらす。
本稿では,この問題を解決するために,MiniSpecという新しいプログラム言語とその実行環境を組み合わせて,計画生成時間とドローン応答時間を短縮するChatFlyを提案する。
すなわち、LLMに人気のあるPythonでプログラム(ロボティックプラン)を書く代わりに、ChatFlyはトークン効率とストリーム解釈のために特別に設計されたMiniSpecでプログラムを実行できる。
難易度の高いドローンタスクのセットを使用することで、ChatFlyによる設計選択が最大62%の応答時間を短縮し、より一貫性のあるユーザエクスペリエンスを提供することで、応答性とインテリジェントなLLMベースのドローン制御を効率よく実現できることが示される。
関連論文リスト
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Language Models as Zero-Shot Trajectory Generators [10.572264780575564]
大規模言語モデル(LLM)は最近、ロボットのハイレベルプランナーとして約束されている。
LLMは低レベルの軌道自体に使用する十分な知識を持っていないとしばしば仮定される。
本研究は,LLMが操作タスクに対して,エンドエフェクタの高密度なシーケンスを直接予測できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-10-17T21:57:36Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。