Fugu-MT 論文翻訳(概要): Distilling On-device Language Models for Robot Planning with Minimal Human Intervention

論文の概要: Distilling On-device Language Models for Robot Planning with Minimal Human Intervention

arxiv url: http://arxiv.org/abs/2506.17486v1
Date: Fri, 20 Jun 2025 21:44:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.43807
Title: Distilling On-device Language Models for Robot Planning with Minimal Human Intervention
Title（参考訳）: 最小限の人間介入によるロボット計画のためのオンデバイス言語モデル
Authors: Zachary Ravichandran, Ignacio Hounie, Fernando Cladera, Alejandro Ribeiro, George J. Pappas, Vijay Kumar,
Abstract要約: PRISMは、SLM(Small Language Model)対応ロボットプランナーを蒸留するためのフレームワークである。 PRISMを3つのLCM対応プランナーに適用し、マッピング、探索、操作、家事支援を行う。 GPT-4o の 10-20% から 93% 以上まで, PRISM は Llama-3.2-3B の性能を向上することを示した。
参考スコア（独自算出の注目度）: 117.90128579811014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) provide robots with powerful contextual reasoning abilities and a natural human interface. Yet, current LLM-enabled robots typically depend on cloud-hosted models, limiting their usability in environments with unreliable communication infrastructure, such as outdoor or industrial settings. We present PRISM, a framework for distilling small language model (SLM)-enabled robot planners that run on-device with minimal human supervision. Starting from an existing LLM-enabled planner, PRISM automatically synthesizes diverse tasks and environments, elicits plans from the LLM, and uses this synthetic dataset to distill a compact SLM as a drop-in replacement of the source model. We apply PRISM to three LLM-enabled planners for mapping and exploration, manipulation, and household assistance, and we demonstrate that PRISM improves the performance of Llama-3.2-3B from 10-20% of GPT-4o's performance to over 93% - using only synthetic data. We further demonstrate that the distilled planners generalize across heterogeneous robotic platforms (ground and aerial) and diverse environments (indoor and outdoor). We release all software, trained models, and datasets at https://zacravichandran.github.io/PRISM.
Abstract（参考訳）: 大規模言語モデル(LLM)は、強力な文脈推論能力と自然なヒューマンインタフェースを備えたロボットを提供する。しかし、現在のLLM対応ロボットは通常、クラウドでホストされたモデルに依存しており、アウトドアや産業環境のような信頼性の低い通信インフラを持つ環境での使用を制限している。 PRISMはスモールランゲージ・モデル(SLM)対応ロボット・プランナーを最小限の人的監督でデバイス上で動作させるためのフレームワークである。既存のLLM対応プランナーから始めて、PRISMは様々なタスクや環境を自動で合成し、LLMからプランを抽出し、この合成データセットを使用して、コンパクトなSLMをソースモデルのドロップイン代替品として蒸留する。 PRISMを3つのLCM対応プランナーに適用し、合成データのみを用いて10～20%のGPT-4oの性能から93%以上のPRISMがLlama-3.2-3Bの性能を向上させることを示した。さらに、蒸留したプランナーが、異種ロボットプラットフォーム(地上・空中)と多様な環境(屋内・屋外)にまたがる一般化を実証した。私たちは、すべてのソフトウェア、トレーニングされたモデル、データセットをhttps://zacravichandran.github.io/PRISM.comでリリースします。

関連論文リスト

Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文参考訳（メタデータ） (2025-05-14T15:28:43Z)
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。 RUMは微調整なしで新しい環境に一般化できる。キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文参考訳（メタデータ） (2024-09-09T17:59:50Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration [4.2460673279562755]
大規模言語モデル(LLM)はロボット工学の分野で人気を集めている。本稿では,人間ロボットコラボレーション(HRC)によるLLMに基づく自律操作の性能向上のための新しいアプローチを提案する。このアプローチでは、高レベルの言語コマンドをロボットによって実行できる一連の動作に分解するために、引き起こされたGPT-4言語モデルを使用する。
論文参考訳（メタデータ） (2024-06-20T08:23:49Z)
AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文参考訳（メタデータ） (2024-01-23T18:45:54Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文参考訳（メタデータ） (2023-11-02T16:34:33Z)
Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (2023-06-14T17:27:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。