論文の概要: MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
- arxiv url: http://arxiv.org/abs/2511.17889v1
- Date: Sat, 22 Nov 2025 02:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.497747
- Title: MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
- Title(参考訳): MobileVLA-R1:移動ロボットのビジョン・ランゲージ・アクションの強化
- Authors: Ting Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang,
- Abstract要約: MobileVLA-R1は視覚言語アクションフレームワークで、四足歩行ロボットの明確な推論と連続制御を可能にする。
本研究では,教師付きCoTアライメントとGRPO強化学習を組み合わせた2段階学習パラダイムを導入し,推論の整合性,制御安定性,長期実行を向上する。
- 参考スコア(独自算出の注目度): 15.919707197385462
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Grounding natural-language instructions into continuous control for quadruped robots remains a fundamental challenge in vision language action. Existing methods struggle to bridge high-level semantic reasoning and low-level actuation, leading to unstable grounding and weak generalization in the real world. To address these issues, we present MobileVLA-R1, a unified vision-language-action framework that enables explicit reasoning and continuous control for quadruped robots. We construct MobileVLA-CoT, a large-scale dataset of multi-granularity chain-of-thought (CoT) for embodied trajectories, providing structured reasoning supervision for alignment. Built upon this foundation, we introduce a two-stage training paradigm that combines supervised CoT alignment with GRPO reinforcement learning to enhance reasoning consistency, control stability, and long-horizon execution. Extensive evaluations on VLN and VLA tasks demonstrate superior performance over strong baselines, with approximately a 5% improvement. Real-world deployment on a quadruped robot validates robust performance in complex environments. Code: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.
- Abstract(参考訳): 四足歩行ロボットの連続制御における自然言語命令の接地は、視覚言語行動の根本的な課題である。
既存の手法は、高レベルのセマンティック推論と低レベルのアクティベーションをブリッジするのに苦労し、不安定な接地と現実世界の弱い一般化につながった。
これらの問題に対処するため、四足歩行ロボットの明示的な推論と連続制御を可能にする統合視覚言語アクションフレームワークであるMobileVLA-R1を提案する。
我々は,多粒性連鎖(CoT)の大規模データセットであるMobileVLA-CoTを構築した。
この基礎の上に構築された2段階の訓練パラダイムは、教師付きCoTアライメントとGRPO強化学習を組み合わせることで、推論整合性、制御安定性、長期実行を向上させる。
VLNタスクとVLAタスクの大規模な評価は、強いベースラインよりも優れたパフォーマンスを示し、約5%改善されている。
四足歩行ロボットの現実的な展開は、複雑な環境での堅牢な性能を検証する。
コード:https://github.com/AIGeeksGroup/MobileVLA-R1。
ウェブサイト: https://aigeeksgroup.github.io/MobileVLA-R1.com
関連論文リスト
- Lite VLA: Efficient Vision-Language-Action Control on CPU-Bound Edge Robots [0.6119773373677944]
本研究は,移動ロボットに小型視覚言語モデル(VLM)を配置し,厳密な計算制約の下でリアルタイムのシーン理解と推論を実現することの実現可能性を示す。
移動性から知覚を分離する従来のアプローチとは異なり、提案フレームワークはオンボードハードウェアのみを使用して動的環境の同時移動と推論を可能にする。
論文 参考訳(メタデータ) (2025-11-07T17:49:14Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks [46.676862567167625]
ODYSSEYは、マニピュレータを備えたアジャイル四足ロボットのための統合モバイル操作フレームワークである。
言語条件付きタスクにおける自我中心的認識の課題に対処するために,視覚言語モデルを用いた階層型プランナを導入する。
コントロールレベルでは、新しい全身政策は、挑戦的な地形をまたいだ堅牢な協調を実現する。
論文 参考訳(メタデータ) (2025-08-11T17:54:31Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。