論文の概要: RoboGPT-R1: Enhancing Robot Planning with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.14828v1
- Date: Thu, 16 Oct 2025 16:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.937891
- Title: RoboGPT-R1: Enhancing Robot Planning with Reinforcement Learning
- Title(参考訳): RoboGPT-R1:強化学習によるロボット計画の強化
- Authors: Jinrui Liu, Bingyan Nie, Boyu Li, Yaran Chen, Yuze Wang, Shunsen He, Haoran Li,
- Abstract要約: 具体化計画のための2段階ファインチューニングフレームワークであるRoboGPT-R1を提案する。
このフレームワークでは、教師付きトレーニングがエキスパートシーケンスを通じて基礎知識を取得し、続いてRLが、視覚空間的理解と推論におけるモデルの欠点に対処する。
Qwen2.5-VL-3Bでトレーニングされた推論モデルは、大規模モデルであるGPT-4o-miniを21.33%上回り、EmbodiedBenchベンチマークで20.33%上回る。
- 参考スコア(独自算出の注目度): 6.12099996406339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the reasoning capabilities of embodied agents is crucial for robots to complete complex human instructions in long-view manipulation tasks successfully. Despite the success of large language models and vision language models based on Supervised Fine-Tuning (SFT) in planning tasks, they continue facing challenges in performing long-horizon manipulation tasks in complex real-world environments, owing to their restricted common sense and reasoning capabilities. Considering that aligning general-purpose vision language models to robotic planning tasks via supervised fine-tuning suffers from poor generalization and insufficient physical understanding, we propose RoboGPT-R1, a two-stage fine-tuning framework for embodied planning. In this framework, supervised training acquires foundational knowledge through expert sequences, followed by RL to address the model's shortcomings in visual-spatial understanding and reasoning. To achieve physical understanding and action sequence consistency in multi-step reasoning tasks, we design a rule-based reward function that simultaneously considers long-horizon performance and action constraint in the environment. The reasoning model, trained on Qwen2.5-VL-3B, significantly outperforms the larger-scale model, GPT-4o-mini, by 21.33% and surpasses other work trained on Qwen2.5-VL-7B by 20.33% on the EmbodiedBench benchmark.
- Abstract(参考訳): エンボディエージェントの推論能力の向上は、ロボットが長期操作タスクを成功させるためには、複雑な人間の指示を完了させることが不可欠である。
大規模言語モデルとSFT(Supervised Fine-Tuning)に基づくビジョン言語モデルの成功にもかかわらず、彼らは複雑な現実世界環境で長期操作タスクを行う際の課題に直面している。
汎用視覚言語モデルとロボット計画タスクとの連携を考えると、教師付き微調整は一般化が悪く、身体的理解が不十分なため、具体化計画のための2段階微調整フレームワークであるRoboGPT-R1を提案する。
このフレームワークでは、教師付きトレーニングがエキスパートシーケンスを通じて基礎知識を取得し、続いてRLが、視覚空間的理解と推論におけるモデルの欠点に対処する。
多段階推論タスクにおける身体的理解と行動シーケンスの整合性を実現するために,環境における長期的性能と行動制約を同時に考慮したルールベースの報酬関数を設計する。
Qwen2.5-VL-3Bでトレーニングされた推論モデルは、大規模モデルであるGPT-4o-miniを21.33%上回り、EmbodiedBenchベンチマークで20.33%上回る。
関連論文リスト
- Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics [55.05920313034645]
本稿では,ロボット制御に特化して具体的推論を強化するため,強化学習を活用した新しいフレームワークであるRobot-R1を紹介する。
DeepSeek-R1学習アプローチにインスパイアされたRobot-R1は、推論に基づく応答をサンプリングし、より正確な予測につながるものを強化する。
実験の結果,ロボットR1で訓練したモデルは,具体的推論タスクにおいて,SFT法よりも優れていた。
論文 参考訳(メタデータ) (2025-05-29T16:41:12Z) - REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models [5.2364456910271935]
自然言語タスク記述から報酬関数を生成するための教師なしパイプラインを提案する。
報酬はシミュレーション環境でRLエージェントを訓練するために使用され、報酬生成プロセスは実現可能性を高めるために形式化される。
ABB YuMiコラボレーティブロボットを用いたシングルアームおよびバイマニュアル操作タスクの広範囲なシミュレーション実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-06T10:08:44Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。