論文の概要: Mind to Hand: Purposeful Robotic Control via Embodied Reasoning
- arxiv url: http://arxiv.org/abs/2512.08580v1
- Date: Tue, 09 Dec 2025 13:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.972921
- Title: Mind to Hand: Purposeful Robotic Control via Embodied Reasoning
- Title(参考訳): 手への心:身体的推論による目的のロボット制御
- Authors: Peijun Tang, Shangjin Xie, Binyan Sun, Baifu Huang, Kuncheng Luo, Haotian Yang, Weiqi Jin, Jianan Wang,
- Abstract要約: ロボットの推論(「ミンド」)とロボットの動作(「手」)を統一するモデルであるLumo-1を紹介する。
我々のアプローチは、事前学習された視覚言語モデル(VLM)の一般的なマルチモーダル推論能力に基づいている。
我々は、強化学習を統合し、推論-動作の一貫性をさらに洗練し、意味推論と運動制御のループを閉じる。
- 参考スコア(独自算出の注目度): 12.275897522668858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans act with context and intention, with reasoning playing a central role. While internet-scale data has enabled broad reasoning capabilities in AI systems, grounding these abilities in physical action remains a major challenge. We introduce Lumo-1, a generalist vision-language-action (VLA) model that unifies robot reasoning ("mind") with robot action ("hand"). Our approach builds upon the general multi-modal reasoning capabilities of pre-trained vision-language models (VLMs), progressively extending them to embodied reasoning and action prediction, and ultimately towards structured reasoning and reasoning-action alignment. This results in a three-stage pre-training pipeline: (1) Continued VLM pre-training on curated vision-language data to enhance embodied reasoning skills such as planning, spatial understanding, and trajectory prediction; (2) Co-training on cross-embodiment robot data alongside vision-language data; and (3) Action training with reasoning process on trajectories collected on Astribot S1, a bimanual mobile manipulator with human-like dexterity and agility. Finally, we integrate reinforcement learning to further refine reasoning-action consistency and close the loop between semantic inference and motor control. Extensive experiments demonstrate that Lumo-1 achieves significant performance improvements in embodied vision-language reasoning, a critical component for generalist robotic control. Real-world evaluations further show that Lumo-1 surpasses strong baselines across a wide range of challenging robotic tasks, with strong generalization to novel objects and environments, excelling particularly in long-horizon tasks and responding to human-natural instructions that require reasoning over strategy, concepts and space.
- Abstract(参考訳): 人間は文脈と意図で行動し、推論が中心的な役割を果たす。
インターネット規模のデータによってAIシステムにおける幅広い推論能力が実現されているが、物理的な行動におけるこれらの能力の基盤は依然として大きな課題である。
本稿では,ロボット推論(mind)とロボット動作(hand)を統一する汎用視覚言語アクション(VLA)モデルであるLumo-1を紹介する。
我々のアプローチは、事前学習された視覚言語モデル(VLM)の一般的なマルチモーダル推論能力に基づいており、それらを徐々に、具体的推論とアクション予測に拡張し、最終的には構造化された推論と推論-アクションアライメントへと拡張している。
その結果、(1)計画、空間理解、軌跡予測などの具体的推論スキルを高めるために、訓練済みの視覚言語データに対するVLM事前訓練、(2)視覚言語データと並行して、異体間ロボットデータによるコトレーニング、(3)人のようなデキスタリティと機敏性を備えたバイマティックな移動マニピュレータであるAstribot S1で収集された軌跡の推論プロセスによるアクショントレーニングが得られた。
最後に、強化学習を統合し、推論-動作の一貫性をさらに洗練し、セマンティック推論とモータ制御のループを閉じる。
広汎な実験により、Lumo-1は、一般的なロボット制御において重要なコンポーネントである視覚言語推論の具体化において、大幅な性能向上を実現していることが示された。
現実的な評価は、Lumo-1が、新しい物体や環境への強力な一般化、特に長距離タスクにおける優れた性能、戦略、概念、空間の推論を必要とする人間と自然の指示に応答するなど、幅広い挑戦的なロボットタスクの強いベースラインを超えたことを示している。
関連論文リスト
- RoboGPT-R1: Enhancing Robot Planning with Reinforcement Learning [6.12099996406339]
具体化計画のための2段階ファインチューニングフレームワークであるRoboGPT-R1を提案する。
このフレームワークでは、教師付きトレーニングがエキスパートシーケンスを通じて基礎知識を取得し、続いてRLが、視覚空間的理解と推論におけるモデルの欠点に対処する。
Qwen2.5-VL-3Bでトレーニングされた推論モデルは、大規模モデルであるGPT-4o-miniを21.33%上回り、EmbodiedBenchベンチマークで20.33%上回る。
論文 参考訳(メタデータ) (2025-10-16T16:04:35Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics [55.05920313034645]
本稿では,ロボット制御に特化して具体的推論を強化するため,強化学習を活用した新しいフレームワークであるRobot-R1を紹介する。
DeepSeek-R1学習アプローチにインスパイアされたRobot-R1は、推論に基づく応答をサンプリングし、より正確な予測につながるものを強化する。
実験の結果,ロボットR1で訓練したモデルは,具体的推論タスクにおいて,SFT法よりも優れていた。
論文 参考訳(メタデータ) (2025-05-29T16:41:12Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。