論文の概要: Distilling On-device Language Models for Robot Planning with Minimal Human Intervention
- arxiv url: http://arxiv.org/abs/2506.17486v1
- Date: Fri, 20 Jun 2025 21:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.43807
- Title: Distilling On-device Language Models for Robot Planning with Minimal Human Intervention
- Title(参考訳): 最小限の人間介入によるロボット計画のためのオンデバイス言語モデル
- Authors: Zachary Ravichandran, Ignacio Hounie, Fernando Cladera, Alejandro Ribeiro, George J. Pappas, Vijay Kumar,
- Abstract要約: PRISMは、SLM(Small Language Model)対応ロボットプランナーを蒸留するためのフレームワークである。
PRISMを3つのLCM対応プランナーに適用し、マッピング、探索、操作、家事支援を行う。
GPT-4o の 10-20% から 93% 以上まで, PRISM は Llama-3.2-3B の性能を向上することを示した。
- 参考スコア(独自算出の注目度): 117.90128579811014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) provide robots with powerful contextual reasoning abilities and a natural human interface. Yet, current LLM-enabled robots typically depend on cloud-hosted models, limiting their usability in environments with unreliable communication infrastructure, such as outdoor or industrial settings. We present PRISM, a framework for distilling small language model (SLM)-enabled robot planners that run on-device with minimal human supervision. Starting from an existing LLM-enabled planner, PRISM automatically synthesizes diverse tasks and environments, elicits plans from the LLM, and uses this synthetic dataset to distill a compact SLM as a drop-in replacement of the source model. We apply PRISM to three LLM-enabled planners for mapping and exploration, manipulation, and household assistance, and we demonstrate that PRISM improves the performance of Llama-3.2-3B from 10-20% of GPT-4o's performance to over 93% - using only synthetic data. We further demonstrate that the distilled planners generalize across heterogeneous robotic platforms (ground and aerial) and diverse environments (indoor and outdoor). We release all software, trained models, and datasets at https://zacravichandran.github.io/PRISM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強力な文脈推論能力と自然なヒューマンインタフェースを備えたロボットを提供する。
しかし、現在のLLM対応ロボットは通常、クラウドでホストされたモデルに依存しており、アウトドアや産業環境のような信頼性の低い通信インフラを持つ環境での使用を制限している。
PRISMはスモールランゲージ・モデル(SLM)対応ロボット・プランナーを最小限の人的監督でデバイス上で動作させるためのフレームワークである。
既存のLLM対応プランナーから始めて、PRISMは様々なタスクや環境を自動で合成し、LLMからプランを抽出し、この合成データセットを使用して、コンパクトなSLMをソースモデルのドロップイン代替品として蒸留する。
PRISMを3つのLCM対応プランナーに適用し、合成データのみを用いて10~20%のGPT-4oの性能から93%以上のPRISMがLlama-3.2-3Bの性能を向上させることを示した。
さらに、蒸留したプランナーが、異種ロボットプラットフォーム(地上・空中)と多様な環境(屋内・屋外)にまたがる一般化を実証した。
私たちは、すべてのソフトウェア、トレーニングされたモデル、データセットをhttps://zacravichandran.github.io/PRISM.comでリリースします。
関連論文リスト
- Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。
本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。
数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文 参考訳(メタデータ) (2025-05-14T15:28:43Z) - Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration [4.2460673279562755]
大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。
本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しいアプローチを提案する。
このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
論文 参考訳(メタデータ) (2024-06-20T08:23:49Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。