論文の概要: MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation
- arxiv url: http://arxiv.org/abs/2604.20468v2
- Date: Thu, 23 Apr 2026 12:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.049932
- Title: MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation
- Title(参考訳): MOMO: シームレスな物理的・言語的・グラフィカルなロボットスキル学習と適応のためのフレームワーク
- Authors: Markus Knauer, Edoardo Fiorini, Maximilian Mühlbauer, Stefan Schneyer, Promwat Angsuratanawech, Florian Samuel Lay, Timo Bachmann, Samuel Bustamante, Korbinian Nottensteiner, Freek Stulp, Alin Albu-Schäffer, João Silvério, Thomas Eiband,
- Abstract要約: 本稿では,3つの相補的モダリティによるロボットのスキル適応を実現する対話型フレームワークを提案する。
このフレームワークは、エネルギーベースのヒューマンインテンション検出、ツールベースのLLMアーキテクチャ、カーネル化されたムーブメントプリミティブの5つのコンポーネントを統合している。
このツールベースのLLMアーキテクチャは、KMPからエルゴディック制御へのスキル適応を一般化し、音声合成面の仕上げを可能にすることを実証する。
- 参考スコア(独自算出の注目度): 8.512341071836513
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Industrial robot applications require increasingly flexible systems that non-expert users can easily adapt for varying tasks and environments. However, different adaptations benefit from different interaction modalities. We present an interactive framework that enables robot skill adaptation through three complementary modalities: kinesthetic touch for precise spatial corrections, natural language for high-level semantic modifications, and a graphical web interface for visualizing geometric relations and trajectories, inspecting and adjusting parameters, and editing via-points by drag-and-drop. The framework integrates five components: energy-based human-intention detection, a tool-based LLM architecture (where the LLM selects and parameterizes predefined functions rather than generating code) for safe natural language adaptation, Kernelized Movement Primitives (KMPs) for motion encoding, probabilistic Virtual Fixtures for guided demonstration recording, and ergodic control for surface finishing. We demonstrate that this tool-based LLM architecture generalizes skill adaptation from KMPs to ergodic control, enabling voice-commanded surface finishing. Validation on a 7-DoF torque-controlled robot at the Automatica 2025 trade fair demonstrates the practical applicability of our approach in industrial settings.
- Abstract(参考訳): 産業用ロボットアプリケーションは、非専門家が様々なタスクや環境に容易に適応できるフレキシブルなシステムを必要とする。
しかし、異なる適応は異なる相互作用のモダリティの恩恵を受ける。
本稿では,3つの相補的モダリティによるロボットのスキル適応を実現する対話型フレームワークを提案する。 精密な空間補正のための審美タッチ,高レベルな意味修正のための自然言語,幾何学的関係や軌道の可視化,パラメータの検査・調整,ドラッグアンドドロップによる透視点の編集などである。
このフレームワークは5つのコンポーネントを統合している:エネルギーベースの人間意図検出、安全な自然言語適応のためのツールベースのLLMアーキテクチャ(LLMはコードを生成するのではなく、事前に定義された関数を選択し、パラメータ化する)、モーションエンコーディングのためのカーネル化運動プリミティブ(KMP)、ガイド付きデモ記録のための確率的仮想フィクスチャ、表面仕上げのためのエルゴード制御である。
このツールベースのLLMアーキテクチャは、KMPからエルゴディック制御へのスキル適応を一般化し、音声合成面の仕上げを可能にすることを実証する。
Automatica 2025のトレードフェアにおける7-DoFトルク制御ロボットのバリデーションにより,産業環境におけるアプローチの有効性が実証された。
関連論文リスト
- IROSA: Interactive Robot Skill Adaptation using Natural Language [9.66356526923778]
ツールベースアーキテクチャによるオープン語彙スキル適応を実現する新しいフレームワークを提案する。
本研究では,産業用軸受リング挿入作業を行う7-DoFトルク制御ロボットの枠組みを実証する。
論文 参考訳(メタデータ) (2026-03-04T09:54:09Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation [50.060274413294586]
自然言語を用いてオブジェクト指向を定義するセマンティック・オリエンテーションの概念を導入する。
我々のSoFarフレームワークは, VLMエージェントにセマンティックオリエンテーションを組み込むことで, 6-DoF空間推論を可能にし, ロボット行動を生成する。
論文 参考訳(メタデータ) (2025-02-18T18:59:02Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Meta-Reinforcement Learning for Adaptive Motor Control in Changing Robot
Dynamics and Environments [3.5309638744466167]
この研究は、ロバストな移動のための異なる条件に制御ポリシーを適応させるメタラーニングアプローチを開発した。
提案手法は, インタラクションモデルを更新し, 推定された状態-作用軌道のアクションをサンプル化し, 最適なアクションを適用し, 報酬を最大化する。
論文 参考訳(メタデータ) (2021-01-19T12:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。