論文の概要: RoboReward: General-Purpose Vision-Language Reward Models for Robotics
- arxiv url: http://arxiv.org/abs/2601.00675v2
- Date: Thu, 08 Jan 2026 08:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.607751
- Title: RoboReward: General-Purpose Vision-Language Reward Models for Robotics
- Title(参考訳): RoboReward:ロボットのための汎用ビジョンランゲージリワードモデル
- Authors: Tony Lee, Andrew Wagenmaker, Karl Pertsch, Percy Liang, Sergey Levine, Chelsea Finn,
- Abstract要約: 視覚言語モデル(VLM)は、自動報酬モデルとして期待されているが、実際のロボットタスクにおけるそれらの効果は理解されていない。
大規模な実ロボットコーパス上に構築されたロボティクス報酬データセットとベンチマークであるRoboRewardを導入することで、このギャップを埋めることを目指している。
- 参考スコア(独自算出の注目度): 124.34685604054312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A well-designed reward is critical for effective reinforcement learning-based policy improvement. In real-world robotics, obtaining such rewards typically requires either labor-intensive human labeling or brittle, handcrafted objectives. Vision-language models (VLMs) have shown promise as automatic reward models, yet their effectiveness on real robot tasks is poorly understood. In this work, we aim to close this gap by introducing (1) RoboReward, a robotics reward dataset and benchmark built on large-scale real-robot corpora from Open X-Embodiment (OXE) and RoboArena, and (2) vision-language reward models trained on this dataset (RoboReward 4B/8B). Because OXE is success-heavy and lacks failure examples, we propose a negative examples data augmentation pipeline that generates calibrated negative and near-misses via counterfactual relabeling of successful episodes and temporal clipping to create partial-progress outcomes from the same videos. Using this framework, we build a large training and evaluation dataset spanning diverse tasks and embodiments to test whether state-of-the-art VLMs can reliably provide rewards for robot learning. Our evaluation of open and proprietary VLMs finds that no model excels across tasks, highlighting substantial room for improvement. We then train general-purpose 4B- and 8B-parameter models that outperform much larger VLMs in assigning rewards for short-horizon robotic tasks. Finally, we deploy the 8B model in real-robot reinforcement learning and find that it improves policy learning over Gemini Robotics-ER 1.5 while narrowing the gap to RL training with human-provided rewards. We release the full dataset, trained reward models, and evaluation suite on our website to advance the development of general-purpose reward models in robotics: https://crfm.stanford.edu/helm/robo-reward-bench (project website).
- Abstract(参考訳): 十分に設計された報酬は、効果的な強化学習に基づく政策改善に不可欠である。
現実世界のロボット工学では、そのような報酬を得るためには、労働集約的な人間のラベル付けか、不安定で手作りの目的が必要である。
視覚言語モデル(VLM)は、自動報酬モデルとして期待されているが、実際のロボットタスクにおけるそれらの効果は理解されていない。
本研究は,(1)Open X-Embodiment (OXE) とRoboArenaの大規模実ロボットコーパス上に構築されたロボット報酬データセットとベンチマークであるRoboRewardと,(2)このデータセットでトレーニングされた視覚言語報酬モデル(RoboReward 4B/8B)を導入することで,このギャップを解消することを目的とする。
OXEは成功度が高く,失敗例が欠如しているため,成功エピソードの反ファクト的緩和と時間的クリッピングによって正負値と近値の校正値を生成する負のサンプルデータ拡張パイプラインを提案し,同じビデオから部分的プログレス結果を生成する。
このフレームワークを用いて,多種多様なタスクや実施状況にまたがる大規模なトレーニングと評価データセットを構築し,最先端のVLMがロボット学習に確実に報奨を与えることができるかどうかを検証した。
オープンでプロプライエタリなVLMの評価では、タスク全体にわたってモデルが優れていないことが分かり、改善の余地がかなり浮かび上がっています。
次に、より大規模なVLMよりも優れた汎用4Bおよび8Bパラメータモデルを訓練し、短距離ロボットタスクに対する報酬を割り当てる。
最後に、実ロボット強化学習に8Bモデルを配置し、人為的な報酬によるRLトレーニングとのギャップを狭めつつ、Gemini Robotics-ER 1.5のポリシー学習を改善することを発見した。
私たちは、ロボット工学における汎用報酬モデルの開発を進めるために、私たちのウェブサイトでデータセット、トレーニングされた報酬モデル、評価スイートをリリースしました。
関連論文リスト
- Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale [11.166320712764465]
VLA(Vision-Language-Action Model)は、専門的なアーキテクチャと専門家ポリシーのタスクに適したコンポーネントを、大規模なデータ収集とセットアップ固有の微調整に置き換える。
従来のロボットソフトウェアフレームワークはボトルネックとなり、ロボットシミュレーションは、実世界の実験への移行を限定的にサポートする。
我々は、大規模なジェネラリストポリシーによるロボット学習の研究を支援するために、ゼロから設計されたリーンエコシステムであるRobot Control Stack (RCS)を紹介した。
論文 参考訳(メタデータ) (2025-09-18T13:12:16Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - On-Robot Reinforcement Learning with Goal-Contrastive Rewards [24.415607337006968]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界で自身の行動から学ぶことができる能力を持つ。
我々は、受動的ビデオデモでトレーニング可能な高密度報酬関数学習法であるGCR(Goal-Contrastive Rewards)を提案する。
GCRは2つの損失関数、成功軌跡を走行する際の報酬の増大をモデル化する暗黙値損失関数、そして成功軌跡と失敗軌跡を区別する目標コントラスト損失を組み合わせた。
論文 参考訳(メタデータ) (2024-10-25T22:11:54Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。
パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。
実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-15T19:22:51Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。