論文の概要: Large Language Models to Enhance Multi-task Drone Operations in Simulated Environments
- arxiv url: http://arxiv.org/abs/2601.08405v1
- Date: Tue, 13 Jan 2026 10:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.764358
- Title: Large Language Models to Enhance Multi-task Drone Operations in Simulated Environments
- Title(参考訳): 模擬環境下でのマルチタスクドローン運用を支援する大規模言語モデル
- Authors: Yizhan Feng, Hichem Snoussi, Jing Teng, Abel Cherouat, Tian Wang,
- Abstract要約: 本論文では,Unreal Engine をベースとしたAirSim ドローンシミュレータに,微調整の CodeT5 モデルを統合する手法を提案する。
提案手法は,シミュレーション環境におけるタスク実行効率とコマンド理解能力に優れる。
- 参考スコア(独自算出の注目度): 7.546510363080917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from the rapid advancements in large language models (LLMs), human-drone interaction has reached unprecedented opportunities. In this paper, we propose a method that integrates a fine-tuned CodeT5 model with the Unreal Engine-based AirSim drone simulator to efficiently execute multi-task operations using natural language commands. This approach enables users to interact with simulated drones through prompts or command descriptions, allowing them to easily access and control the drone's status, significantly lowering the operational threshold. In the AirSim simulator, we can flexibly construct visually realistic dynamic environments to simulate drone applications in complex scenarios. By combining a large dataset of (natural language, program code) command-execution pairs generated by ChatGPT with developer-written drone code as training data, we fine-tune the CodeT5 to achieve automated translation from natural language to executable code for drone tasks. Experimental results demonstrate that the proposed method exhibits superior task execution efficiency and command understanding capabilities in simulated environments. In the future, we plan to extend the model functionality in a modular manner, enhancing its adaptability to complex scenarios and driving the application of drone technologies in real-world environments.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、人間とドローンの相互作用は前例のない機会に到達した。
本論文では,Unreal EngineをベースとしたドローンシミュレータであるAirSimと,微調整したCodeT5モデルを統合して,自然言語コマンドによるマルチタスク操作を効率的に実行する手法を提案する。
このアプローチにより、ユーザはプロンプトやコマンド記述を通じてシミュレートされたドローンと対話することが可能になり、ドローンの状態へのアクセスと制御が容易になり、運用のしきい値が大幅に低下する。
AirSimシミュレータでは、複雑なシナリオでドローンアプリケーションをシミュレートするために、視覚的にリアルな動的環境を柔軟に構築できる。
ChatGPTが生成した大規模な(自然言語、プログラムコード)コマンド実行ペアと開発者記述のドローンコードをトレーニングデータとして組み合わせることで、CodeT5を微調整して、自然言語からドローンタスクの実行可能なコードへの自動翻訳を実現します。
実験の結果,提案手法はシミュレーション環境におけるタスク実行効率とコマンド理解能力に優れていた。
将来的には,モジュール方式でモデル機能を拡張し,複雑なシナリオへの適応性を高め,実環境におけるドローン技術の活用を推進していく予定である。
関連論文リスト
- Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos [56.510263910611684]
本研究では,様々な動作を行う前に物体をつかむタスクを包括的操作に対処する。
人間のビデオは、移植後の動作を学ぶための強力な信号を提供するが、必要な把握行動を学ぶのにはあまり役に立たない。
本稿では、人間の動画モーションデータを用いたモジュラー操作ポリシーをトレーニングするためのフレームワークであるPerceive-Simulate-Imitate(PSI)を提案する。
論文 参考訳(メタデータ) (2026-02-13T18:59:10Z) - Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。
本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。
数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文 参考訳(メタデータ) (2025-05-14T15:28:43Z) - Trajectory Adaptation using Large Language Models [0.8704964543257245]
新しい状況に応じた人間の指示に基づくロボット軌道の適応は、より直感的でスケーラブルな人間とロボットの相互作用を実現するために不可欠である。
本研究は,市販の移動プランナが生成する汎用ロボット軌道に適応する柔軟な言語ベースのフレームワークを提案する。
我々は、事前学習されたLLMを用いて、高密度ロボット操作のポリシーとしてコードを生成することにより、軌道方向の経路を適応させる。
論文 参考訳(メタデータ) (2025-04-17T08:48:23Z) - Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models [5.2364456910271935]
自然言語タスク記述から報酬関数を生成するための教師なしパイプラインを提案する。
報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
ABB YuMiコラボレーティブロボットを用いたシングルアームおよびバイマニュアル操作タスクの広範囲なシミュレーション実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-06T10:08:44Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。