論文の概要: Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities
- arxiv url: http://arxiv.org/abs/2505.09477v1
- Date: Wed, 14 May 2025 15:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.512449
- Title: Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities
- Title(参考訳): 航空・地上ロボットの現場展開 : 挑戦と機会
- Authors: Zachary Ravichandran, Fernando Cladera, Jason Hughes, Varun Murali, M. Ani Hsieh, George J. Pappas, Camillo J. Taylor, Vijay Kumar,
- Abstract要約: 基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。
本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。
数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
- 参考スコア(独自算出の注目度): 65.98704516122228
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The integration of foundation models (FMs) into robotics has enabled robots to understand natural language and reason about the semantics in their environments. However, existing FM-enabled robots primary operate in closed-world settings, where the robot is given a full prior map or has a full view of its workspace. This paper addresses the deployment of FM-enabled robots in the field, where missions often require a robot to operate in large-scale and unstructured environments. To effectively accomplish these missions, robots must actively explore their environments, navigate obstacle-cluttered terrain, handle unexpected sensor inputs, and operate with compute constraints. We discuss recent deployments of SPINE, our LLM-enabled autonomy framework, in field robotic settings. To the best of our knowledge, we present the first demonstration of large-scale LLM-enabled robot planning in unstructured environments with several kilometers of missions. SPINE is agnostic to a particular LLM, which allows us to distill small language models capable of running onboard size, weight and power (SWaP) limited platforms. Via preliminary model distillation work, we then present the first language-driven UAV planner using on-device language models. We conclude our paper by proposing several promising directions for future research.
- Abstract(参考訳): 基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。
しかし、既存のFM対応ロボットは、主にクローズドワールド環境で動作し、ロボットには完全な事前マップが与えられるか、ワークスペースのフルビューが与えられる。
本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。
これらのミッションを効果的に遂行するには、ロボットは自分たちの環境を積極的に探索し、障害物が散らばった地形をナビゲートし、予期せぬセンサー入力を処理し、計算制約で操作する必要がある。
フィールドロボット設定におけるLLM対応自律フレームワークであるSPINEの最近の展開について論じる。
我々の知る限り、数kmのミッションを持つ非構造環境における大規模LLM対応ロボット計画の最初の実演を提示する。
SPINEは特定のLLMに依存しないため、オンボードサイズ、重量、パワー(SWaP)の制限されたプラットフォームを実行することができる小さな言語モデルを蒸留することができる。
予備モデル蒸留作業により、デバイス上での言語モデルを用いた最初の言語駆動型UAVプランナを提示する。
我々は,今後の研究に向けて,いくつかの有望な方向性を提案することで,論文を締めくくっている。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Prompt a Robot to Walk with Large Language Models [18.214609570837403]
巨大な言語モデル(LLM)は、大規模なインターネットスケールのデータで事前訓練されている。
物理的環境から収集した数発のプロンプトを使用する新しいパラダイムを導入する。
様々なロボットと環境をまたいだ実験により、我々の手法がロボットに歩行を効果的に促すことが検証された。
論文 参考訳(メタデータ) (2023-09-18T17:50:17Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。