論文の概要: To Select or not to Select, that is the Question: Distilling Robot Skill Prediction into a Small Ensemble
- arxiv url: http://arxiv.org/abs/2605.21242v1
- Date: Wed, 20 May 2026 14:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.725446
- Title: To Select or not to Select, that is the Question: Distilling Robot Skill Prediction into a Small Ensemble
- Title(参考訳): ロボットのスキル予測を小さなアンサンブルに蒸留する
- Authors: Haechan Mark Bong, Simon Roy, Euhid Aman, Giovanni Beltrame,
- Abstract要約: ロボットのスキル予測:自然言語によるタスク記述を、実行に必要な物理的能力にマッピングする。
LLM支援生成とターゲットラベル監査を用いたタスク・トゥ・スキルの合成データセットを構築した。
固定ロボット技術では、合成データに基づいて訓練された小型の特殊モデルは、艦隊レベルのタスクルーティングにおいて、はるかに大きな汎用LLMよりも優れる。
- 参考スコア(独自算出の注目度): 3.986352378131883
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As robot fleets become more heterogeneous, including humanoids, rovers, quadrupeds, and drones, selecting the right robot for a task becomes a core systems problem. We study robot skill prediction: mapping a natural-language task description to the physical capabilities required to execute it, such as fly, wheels, legs, surface water, under water and hands. Since labelled data that maps natural-language task descriptions to robot's physical capabilities does not exist, we construct a synthetic task-to-skill dataset using LLM-assisted generation and targeted label auditing. Trained on this data, a ~133M-parameter ensemble of two fine-tuned sentence encoders (mpnet + MiniLM) reaches 83.5% task-to-skill matching on a stratified 200 task dataset, outperforming Kimi K2 (1T MoE) at 72.0%, GPT-OSS-120B at 71.5%, and Llama-4-Scout-17B at 69.0% under the same zero-shot prompt. These results suggest that, for fixed robot skill taxonomies, small specialized models trained on synthetic data can outperform much larger general-purpose LLMs for fleet-level task routing.
- Abstract(参考訳): ヒューマノイド、ローバー、四脚、ドローンなど、ロボットの群れがさらに異質になるにつれて、タスクに適したロボットを選択することが、コアシステム問題となる。
ロボットのスキル予測: 自然言語によるタスク記述を、ハエ、車輪、脚、表面水、水中、手などの実行に必要な物理的能力にマッピングする。
自然言語によるタスク記述をロボットの身体能力にマッピングするラベル付きデータは存在しないので,LSM支援生成と目標ラベル監査を用いた合成タスク・トゥ・スキルデータセットを構築した。
このデータに基づいて訓練された2つの微調整文エンコーダ(mpnet + MiniLM)の133Mパラレルアンサンブルは、階層化された200タスクデータセット上で83.5%のタスク to スキルマッチングに達し、Kim K2(1T MoE)を72.0%、GPT-OSS-120Bを71.5%、Llama-4-Scout-17Bを69.0%で上回る。
これらの結果から, 固定ロボット技能分類学においては, 合成データに基づいて訓練された小型の特殊モデルの方が, 艦隊レベルのタスクルーティングにおいて, はるかに大きな汎用LSMよりも優れていたことが示唆された。
関連論文リスト
- Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。
既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。
神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文 参考訳(メタデータ) (2025-11-27T18:50:21Z) - Heterogeneous Robot Collaboration in Unstructured Environments with Grounded Generative Intelligence [54.91177026001217]
大規模言語モデル(LLM)対応のチーム化手法は、よく構造化された既知の環境を前提とするのが一般的である。
異種ロボットチームにおけるLCMの推論能力を基盤として,これらの制約に対処するフレームワークであるSPINE-HTを提案する。
我々のフレームワークは、従来のLLM対応の不均一なチームリング手法と比較して、ほぼ2倍の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-30T18:24:38Z) - MTF-Grasp: A Multi-tier Federated Learning Approach for Robotic Grasping [0.0]
Federated Learning(FL)は、プライバシ保護と協調的なモデルのトレーニングを可能にする機械学習パラダイムである。
MTF-Graspは,ロボット間の非IIDデータ分散がもたらす固有の課題を認識し,多層FLアプローチである。
提案手法は,量スキュードコーネルとジャカードの把握データセットにおいて,従来のFLセットアップを最大8%向上させる。
論文 参考訳(メタデータ) (2025-07-14T11:17:28Z) - Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。
本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。
数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文 参考訳(メタデータ) (2025-05-14T15:28:43Z) - Air-Ground Collaboration for Language-Specified Missions in Unknown Environments [62.56917065429864]
本稿では,無人航空機 (UAV) と無人地上機 (UGV) が,自然言語で指定されたミッションを協調的に達成できる,第一種システムを提案する。
我々は、Large Language Model(LLM)対応プランナーを利用して、オンライン上に構築され、航空ロボットと地上ロボットの間で機会的に共有されるセマンティック・メトリック・マップを推論する。
論文 参考訳(メタデータ) (2025-05-14T03:33:46Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。