論文の概要: TypeFly: Flying Drones with Large Language Model
- arxiv url: http://arxiv.org/abs/2312.14950v1
- Date: Fri, 8 Dec 2023 15:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:03:04.210469
- Title: TypeFly: Flying Drones with Large Language Model
- Title(参考訳): typefly: 大型言語モデルによる飛行ドローン
- Authors: Guojun Chen and Xiaojing Yu and Lin Zhong
- Abstract要約: 本稿では,エッジベース・ビジョン・インテリジェンス,新しいプログラム言語設計,プロンプトエンジニアリングを組み合わせたTypeFlyというシステムを提案する。
慣れ親しんだPythonの代わりに、TypeFlyはクラウドベースのLLMサービスを使用して、MiniSpecと呼ばれる小さなカスタム言語でプログラムを記述する。
ますます困難なドローンタスクのセットを使用することで、TypeFlyによる設計選択により、LLMサービスのコストとタスク実行時間の両方を2倍以上に削減できることを示す。
- 参考スコア(独自算出の注目度): 2.8746521906507083
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Commanding a drone with a natural language is not only user-friendly but also
opens the door for emerging language agents to control the drone. Emerging
large language models (LLMs) provide a previously impossible opportunity to
automatically translate a task description in a natural language to a program
that can be executed by the drone. However, powerful LLMs and their vision
counterparts are limited in three important ways. First, they are only
available as cloud-based services. Sending images to the cloud raises privacy
concerns. Second, they are expensive, costing proportionally to the request
size. Finally, without expensive fine-tuning, existing LLMs are quite limited
in their capability of writing a program for specialized systems like drones.
In this paper, we present a system called TypeFly that tackles the above
three problems using a combination of edge-based vision intelligence, novel
programming language design, and prompt engineering. Instead of the familiar
Python, TypeFly gets a cloud-based LLM service to write a program in a small,
custom language called MiniSpec, based on task and scene descriptions in
English. Such MiniSpec programs are not only succinct (and therefore efficient)
but also able to consult the LLM during their execution using a special skill
called query. Using a set of increasingly challenging drone tasks, we show that
design choices made by TypeFly can reduce both the cost of LLM service and the
task execution time by more than 2x. More importantly, query and prompt
engineering techniques contributed by TypeFly significantly improve the chance
of success of complex tasks.
- Abstract(参考訳): 自然言語でドローンを操縦することは、ユーザーフレンドリーなだけでなく、新しい言語エージェントがドローンを制御するドアを開く。
新たな大規模言語モデル(LLM)は、自然言語でタスク記述を自動的にドローンで実行できるプログラムに翻訳する、これまで不可能だった機会を提供する。
しかし、強力なLCMとそのビジョンは3つの重要な方法で制限されている。
まず、クラウドベースのサービスとしてのみ利用できる。
画像のクラウドへの送信はプライバシーの問題を引き起こす。
第二に、それらは高価で、要求サイズに比例してコストがかかる。
最後に、高価な微調整なしでは、既存のLCMはドローンのような特殊なシステムのためのプログラムを書く能力にかなり制限がある。
本稿では、エッジベースのビジョンインテリジェンス、新しいプログラミング言語設計、およびプロンプトエンジニアリングの組み合わせを用いて、上記の3つの問題に取り組むtypeflyというシステムを提案する。
慣れ親しんだPythonの代わりに、TypeFlyはクラウドベースのLLMサービスを使用して、MiniSpecと呼ばれる小さなカスタム言語でプログラムを記述する。
このようなMiniSpecプログラムは簡潔で効率的なだけでなく、クエリと呼ばれる特別なスキルを使用して実行中にLCMに相談することができる。
ますます困難なドローンタスクのセットを使用することで、TypeFlyによる設計選択により、LLMサービスのコストとタスク実行時間の両方を2倍以上に削減できることを示す。
さらに重要なのは,typeflyが貢献するクエリとプロンプトエンジニアリング技術が,複雑なタスクの成功率を大幅に向上させる点だ。
関連論文リスト
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - Language Models as Zero-Shot Trajectory Generators [0.0]
大規模言語モデル(LLM)は、最近、低レベルのスキルの選択へのアクセスを与えられたとき、ロボットのハイレベルプランナーとして約束されている。
物体検出と分割視覚モデルのみへのアクセスを与えられた場合, LLM が操作スキルのための高密度なエンドエフェクタ・ポーズを直接予測できるかどうかを検討する。
我々はLLMが、様々な共通タスクに十分な低レベルロボット制御の理解を実際に持っていることを初めて明らかにした。
論文 参考訳(メタデータ) (2023-10-17T21:57:36Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。