Fugu-MT 論文翻訳(概要): TypeFly: Flying Drones with Large Language Model

論文の概要: TypeFly: Flying Drones with Large Language Model

arxiv url: http://arxiv.org/abs/2312.14950v1
Date: Fri, 8 Dec 2023 15:57:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 13:03:04.210469
Title: TypeFly: Flying Drones with Large Language Model
Title（参考訳）: typefly: 大型言語モデルによる飛行ドローン
Authors: Guojun Chen and Xiaojing Yu and Lin Zhong
Abstract要約: 本稿では,エッジベース・ビジョン・インテリジェンス,新しいプログラム言語設計,プロンプトエンジニアリングを組み合わせたTypeFlyというシステムを提案する。慣れ親しんだPythonの代わりに、TypeFlyはクラウドベースのLLMサービスを使用して、MiniSpecと呼ばれる小さなカスタム言語でプログラムを記述する。ますます困難なドローンタスクのセットを使用することで、TypeFlyによる設計選択により、LLMサービスのコストとタスク実行時間の両方を2倍以上に削減できることを示す。
参考スコア（独自算出の注目度）: 2.8746521906507083
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Commanding a drone with a natural language is not only user-friendly but also opens the door for emerging language agents to control the drone. Emerging large language models (LLMs) provide a previously impossible opportunity to automatically translate a task description in a natural language to a program that can be executed by the drone. However, powerful LLMs and their vision counterparts are limited in three important ways. First, they are only available as cloud-based services. Sending images to the cloud raises privacy concerns. Second, they are expensive, costing proportionally to the request size. Finally, without expensive fine-tuning, existing LLMs are quite limited in their capability of writing a program for specialized systems like drones. In this paper, we present a system called TypeFly that tackles the above three problems using a combination of edge-based vision intelligence, novel programming language design, and prompt engineering. Instead of the familiar Python, TypeFly gets a cloud-based LLM service to write a program in a small, custom language called MiniSpec, based on task and scene descriptions in English. Such MiniSpec programs are not only succinct (and therefore efficient) but also able to consult the LLM during their execution using a special skill called query. Using a set of increasingly challenging drone tasks, we show that design choices made by TypeFly can reduce both the cost of LLM service and the task execution time by more than 2x. More importantly, query and prompt engineering techniques contributed by TypeFly significantly improve the chance of success of complex tasks.
Abstract（参考訳）: 自然言語でドローンを操縦することは、ユーザーフレンドリーなだけでなく、新しい言語エージェントがドローンを制御するドアを開く。新たな大規模言語モデル(LLM)は、自然言語でタスク記述を自動的にドローンで実行できるプログラムに翻訳する、これまで不可能だった機会を提供する。しかし、強力なLCMとそのビジョンは3つの重要な方法で制限されている。まず、クラウドベースのサービスとしてのみ利用できる。画像のクラウドへの送信はプライバシーの問題を引き起こす。第二に、それらは高価で、要求サイズに比例してコストがかかる。最後に、高価な微調整なしでは、既存のLCMはドローンのような特殊なシステムのためのプログラムを書く能力にかなり制限がある。本稿では、エッジベースのビジョンインテリジェンス、新しいプログラミング言語設計、およびプロンプトエンジニアリングの組み合わせを用いて、上記の3つの問題に取り組むtypeflyというシステムを提案する。慣れ親しんだPythonの代わりに、TypeFlyはクラウドベースのLLMサービスを使用して、MiniSpecと呼ばれる小さなカスタム言語でプログラムを記述する。このようなMiniSpecプログラムは簡潔で効率的なだけでなく、クエリと呼ばれる特別なスキルを使用して実行中にLCMに相談することができる。ますます困難なドローンタスクのセットを使用することで、TypeFlyによる設計選択により、LLMサービスのコストとタスク実行時間の両方を2倍以上に削減できることを示す。さらに重要なのは,typeflyが貢献するクエリとプロンプトエンジニアリング技術が,複雑なタスクの成功率を大幅に向上させる点だ。

関連論文リスト

LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language [17.914580097058106]
両手間の空間的・時間的調整が複雑になるため、両手操作は固有の課題となる。既存の作業は主に、ロボットハンドのための人間レベルの操作スキルの獲得に重点を置いているが、長い時間軸でのタスクプランニングにはほとんど関心が払われていない。本稿では,LLM推論とマルチエージェント計画を統合した双方向計画フレームワークであるLLM+MAPを紹介する。
論文参考訳（メタデータ） (2025-03-21T17:04:01Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文参考訳（メタデータ） (2024-05-02T17:59:31Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Language Models as Zero-Shot Trajectory Generators [10.572264780575564]
大規模言語モデル(LLM)は最近、ロボットのハイレベルプランナーとして約束されている。 LLMは低レベルの軌道自体に使用する十分な知識を持っていないとしばしば仮定される。本研究は,LLMが操作タスクに対して,エンドエフェクタの高密度なシーケンスを直接予測できるかどうかを考察する。
論文参考訳（メタデータ） (2023-10-17T21:57:36Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文参考訳（メタデータ） (2023-05-30T09:54:20Z)
Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文参考訳（メタデータ） (2023-04-17T09:27:40Z)
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T23:01:27Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。