論文の概要: Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
- arxiv url: http://arxiv.org/abs/2506.00070v1
- Date: Thu, 29 May 2025 16:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.185551
- Title: Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
- Title(参考訳): ロボットR1:ロボットの身体的推論強化のための強化学習
- Authors: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo,
- Abstract要約: 本稿では,ロボット制御に特化して具体的推論を強化するため,強化学習を活用した新しいフレームワークであるRobot-R1を紹介する。
DeepSeek-R1学習アプローチにインスパイアされたRobot-R1は、推論に基づく応答をサンプリングし、より正確な予測につながるものを強化する。
実験の結果,ロボットR1で訓練したモデルは,具体的推論タスクにおいて,SFT法よりも優れていた。
- 参考スコア(独自算出の注目度): 55.05920313034645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have recently shown great promise in advancing robotics by combining embodied reasoning with robot control. A common approach involves training on embodied reasoning tasks related to robot control using Supervised Fine-Tuning (SFT). However, SFT datasets are often heuristically constructed and not explicitly optimized for improving robot control. Furthermore, SFT often leads to issues such as catastrophic forgetting and reduced generalization performance. To address these limitations, we introduce Robot-R1, a novel framework that leverages reinforcement learning to enhance embodied reasoning specifically for robot control. Robot-R1 learns to predict the next keypoint state required for task completion, conditioned on the current scene image and environment metadata derived from expert demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples reasoning-based responses and reinforces those that lead to more accurate predictions. Our experiments show that models trained with Robot-R1 outperform SFT methods on embodied reasoning tasks. Despite having only 7B parameters, Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action control, such as spatial and primitive movement reasoning.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、最近、ロボット制御と具体的推論を組み合わせることで、ロボット工学の進歩に大きな可能性を示している。
一般的なアプローチは、スーパーバイザード・ファイン・チューニング(SFT)を用いたロボット制御に関連する身体的推論タスクのトレーニングである。
しかし、SFTデータセットはしばしばヒューリスティックに構築され、ロボット制御を改善するために明示的に最適化されていない。
さらに、SFTはしばしば破滅的な忘れ込みや一般化性能の低下といった問題に繋がる。
これらの制約に対処するため,ロボット制御に特化して具体的推論を強化するために強化学習を活用した新しいフレームワークであるRobot-R1を導入する。
Robot-R1は、タスク完了に必要な次のキーポイント状態を、現在のシーンイメージと専門家によるデモンストレーションから派生した環境メタデータに基づいて予測する。
DeepSeek-R1学習アプローチにインスパイアされたRobot-R1は、推論に基づく応答をサンプリングし、より正確な予測につながるものを強化する。
実験の結果,ロボットR1で訓練したモデルは,具体的推論タスクにおいて,SFT法よりも優れていた。
7Bパラメータしか持たないにもかかわらず、Robot-R1は空間的および原始的な動作推論のような低レベルの動作制御に関連するタスクの推論において、GPT-4oを超えている。
関連論文リスト
- RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。
大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。
強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-05-03T06:17:18Z) - Ask1: Development and Reinforcement Learning-Based Control of a Custom Quadruped Robot [8.474007797143567]
本稿では、カスタマイズされた四足歩行ロボットAsk1の設計、開発、実験検証について述べる。
Ask1ロボットはUnitree Go1と類似した形態を持っているが、カスタムハードウェアコンポーネントと異なる制御アーキテクチャを備えている。
我々は、従来の強化学習に基づく制御方法をAsk1ロボットに拡張し、実世界のシナリオにおける我々のアプローチの適用性を実証した。
論文 参考訳(メタデータ) (2024-12-11T01:56:47Z) - Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation [23.554917579133576]
本稿では,ロボット拡散変換器(RDT)について述べる。
RDTは、マルチモーダリティを効果的に表現するために拡散モデルを構築し、スケーラブルトランスフォーマーの革新的な設計である。
さらに,様々なロボットの動作表現を統一する物理解釈可能な統一行動空間を導入する。
論文 参考訳(メタデータ) (2024-10-10T12:33:46Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。