論文の概要: Ro-SLM: Onboard Small Language Models for Robot Task Planning and Operation Code Generation
- arxiv url: http://arxiv.org/abs/2604.10929v2
- Date: Tue, 14 Apr 2026 17:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.418481
- Title: Ro-SLM: Onboard Small Language Models for Robot Task Planning and Operation Code Generation
- Title(参考訳): Ro-SLM:ロボットタスク計画と運用コード生成のための小型言語モデル
- Authors: Wenhao Wang, Yanyan Li, Long Jiao, Jiawei Yuan,
- Abstract要約: Ro-SLMは、LSMの知識と推論を蒸留することで、信頼性の高いSLM駆動ロボット操作を可能にするフレームワークである。
本稿では,LSMの知識と推論を蒸留することにより,信頼性の高いSLM駆動型ロボット操作を実現するフレームワークであるRo-SLMを紹介する。
- 参考スコア(独自算出の注目度): 15.351149188703522
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models (LLMs) provide robots with contextual reasoning abilities to comprehend human instructions. Yet, current LLM-enabled robots typically depend on cloud-based models or high-performance computing infrastructure, which limit their deployment on robots under unreliable internet environments or with constrained computational resources, such as UAVs and small ground vehicles. Thus, deploying fine-tuned small language models (SLMs) that support onboard deployment offers a promising alternative. This paper introduces Ro-SLM, a framework that enables reliable SLM-driven robot operation by distilling LLMs' knowledge and reasoning. Ro-SLM starts from dataset synthesis by leveraging LLMs to generate diverse task instructions, produce corresponding ground truth code with minimal human assistance, and augment instructions into real-world application scenarios. Ro-SLM is then fine-tuned with the dataset, in which LLM serves as a reward function to guide the training. Extensive experiments on UAV operation tasks demonstrate that Ro-SLM improves the performance of SLM from being incapable of supporting robotic task planning and code generation to achieving performance that approaches LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、人間の指示を理解するための文脈推論能力を持つロボットを提供する。
しかし、現在のLLM対応ロボットは通常、クラウドベースのモデルや高性能コンピューティングインフラに依存しており、信頼性の低いインターネット環境下でのロボットへの展開や、UAVや小型地上車両のような制約のある計算資源による展開を制限する。
このように、オンボードデプロイメントをサポートする微調整された小さな言語モデル(SLM)をデプロイすることは、有望な代替手段となる。
本稿では,LSMの知識と推論を蒸留することにより,信頼性の高いSLM駆動型ロボット操作を実現するフレームワークであるRo-SLMを紹介する。
Ro-SLMは、LLMを利用してデータセット合成から始まり、多様なタスク命令を生成し、最小限の人力で対応する真理コードを生成し、実世界のアプリケーションシナリオに命令を拡大する。
その後、Ro-SLMはデータセットで微調整され、LLMはトレーニングをガイドする報酬関数として機能する。
UAV操作タスクに関する大規模な実験により、Ro-SLMは、ロボットタスク計画とコード生成をサポートすることができず、LSMに近づいた性能を達成できないことから、SLMの性能を向上させることが示されている。
関連論文リスト
- An LLM-powered Natural-to-Robotic Language Translation Framework with Correctness Guarantees [40.31829665216206]
大規模言語モデル(LLM)は、特定のユーザタスクのためのロボット制御プログラムを生成するために、ロボット工学にますます導入されている。
本稿では,生成した制御プログラムの正当性検証を行う自然言語翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T14:32:49Z) - Distilling On-device Language Models for Robot Planning with Minimal Human Intervention [116.93160528413655]
PRISMは、SLM(Small Language Model)対応ロボットプランナーを蒸留するためのフレームワークである。
PRISMを3つのLCM対応プランナーに適用し、マッピング、探索、操作、家事支援を行う。
GPT-4o の 10-20% から 93% 以上まで, PRISM は Llama-3.2-3B の性能を向上することを示した。
論文 参考訳(メタデータ) (2025-06-20T21:44:27Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [62.854649499866774]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning Code LLMs [34.16234805577773]
プログラム実行中にタスク固有のシミュレーション環境をオンザフライで合成するROBO-INSTRUCTを提案する。
ROBO-INSTRUCT は LLM に支援された後処理の手順を統合し,ロボットプログラムとの整合性を向上する。
論文 参考訳(メタデータ) (2024-05-30T15:47:54Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。