論文の概要: Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons
- arxiv url: http://arxiv.org/abs/2603.02115v1
- Date: Mon, 02 Mar 2026 17:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.008293
- Title: Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons
- Title(参考訳): ロビオメーター:軌道比較による汎用ロボットリワードモデルのスケーリング
- Authors: Anthony Liang, Yigit Korkmaz, Jiahui Zhang, Minyoung Hwang, Abrar Anwar, Sidhant Kaushik, Aditya Shah, Alex S. Huang, Luke Zettlemoyer, Dieter Fox, Yu Xiang, Anqi Li, Andreea Bobu, Abhishek Gupta, Stephen Tu, Erdem Biyik, Jesse Zhang,
- Abstract要約: 汎用ロボット報酬モデルは通常、専門家によるデモンストレーションから絶対的なタスク進捗を予測するために訓練される。
本稿では、軌道内進行監視と軌道間優先監視を組み合わせたスケーラブルな報酬モデリングフレームワークRobometerを紹介する。
ロビオメーターは、専門家データに報酬等級を固定するフレームレベルのプログレス・ロスと、グローバルな順序制約を課す軌跡比較優先損失という2つの目的で訓練されている。
- 参考スコア(独自算出の注目度): 69.87766750714945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose robot reward models are typically trained to predict absolute task progress from expert demonstrations, providing only local, frame-level supervision. While effective for expert demonstrations, this paradigm scales poorly to large-scale robotics datasets where failed and suboptimal trajectories are abundant and assigning dense progress labels is ambiguous. We introduce Robometer, a scalable reward modeling framework that combines intra-trajectory progress supervision with inter-trajectory preference supervision. Robometer is trained with a dual objective: a frame-level progress loss that anchors reward magnitude on expert data, and a trajectory-comparison preference loss that imposes global ordering constraints across trajectories of the same task, enabling effective learning from both real and augmented failed trajectories. To support this formulation at scale, we curate RBM-1M, a reward-learning dataset comprising over one million trajectories spanning diverse robot embodiments and tasks, including substantial suboptimal and failure data. Across benchmarks and real-world evaluations, Robometer learns more generalizable reward functions than prior methods and improves robot learning performance across a diverse set of downstream applications. Code, model weights, and videos at https://robometer.github.io/.
- Abstract(参考訳): 汎用ロボット報酬モデルは通常、専門家によるデモンストレーションから絶対的なタスク進捗を予測するために訓練され、局所的なフレームレベルの監視のみを提供する。
専門家による実証には有効だが、このパラダイムは、失敗や最適下方軌道が豊富であり、密度の高い進行ラベルを割り当てることが不明確である大規模ロボットデータセットに対して、不十分にスケールする。
本稿では、軌道内進行監視と軌道間優先監視を組み合わせたスケーラブルな報酬モデリングフレームワークRobometerを紹介する。
ロビオメーターは、専門家データに報酬等級を固定するフレームレベルの進歩損失と、同じタスクの軌跡全体にわたってグローバルな順序付け制約を課す軌跡比較優先損失という2つの目的で訓練され、現実と強化された軌跡の両方から効果的な学習を可能にする。
この定式化を大規模に支援するために,多種多様なロボットの動作やタスクにまたがる100万以上の軌道からなる報奨学習データセットであるRBM-1Mをキュレートした。
ベンチマークや実世界の評価を通じて、ロビオメーターは従来の方法よりも一般化可能な報酬関数を学び、さまざまな下流アプリケーションでロボット学習性能を向上させる。
コード、モデルウェイト、ビデオはhttps://robometer.github.io/。
関連論文リスト
- RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation [37.52152452548065]
RoboGeneは多様な物理的に可能な操作タスクを生成するために設計されたエージェントフレームワークである。
広範に定量的な分析と大規模な実世界の実験を行い、18k軌道のデータセットを収集した。
結果は、RoboGeneが最先端の基礎モデルよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2026-02-18T13:29:43Z) - RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics [53.053660003572965]
本稿では,3次元空間参照と計測の両方を初めて実現した3D対応VLMであるRoboTracerを提案する。
RoboTracerは、強化微調整により、多段階のメートル法推論を進める。
本稿では,空間的トレーシングを評価する上で困難なベンチマークであるTraceSpatial-Benchを提案する。
論文 参考訳(メタデータ) (2025-12-15T18:52:43Z) - NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation [54.87964060934928]
VLA(Vision-Language-Action)モデルは、現実の展開において重要な障壁に直面している。
本稿では,軌道の狭小化に焦点を絞った新しい手法として,軌道の狭小化(Narrowing of Trajectory)VLAフレームワークを提案する。
NoTVLAは2つのクリティカルな制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。
論文 参考訳(メタデータ) (2025-10-04T18:26:55Z) - Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision [2.3548641190233264]
自己拡張型ロボット軌道(Self-Augmented Robot Trajectory, SART)は、一つの人間のデモンストレーションからポリシー学習を可能にするフレームワークである。
SARTは、人間による実証にのみ訓練されたポリシーよりも、はるかに高い成功率を達成する。
論文 参考訳(メタデータ) (2025-09-11T23:10:56Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Action Flow Matching for Continual Robot Learning [54.10050120844738]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - RoboGrasp: A Universal Grasping Policy for Robust Robotic Control [8.189496387470726]
RoboGraspは、トレーニング済みの把握検出モデルとロボット学習を統合する、普遍的な把握ポリシーフレームワークである。
把握精度、安定性、一般化性を大幅に向上させ、数ショットの学習と把握ボックスのプロンプトタスクで最大34%の成功率を達成する。
論文 参考訳(メタデータ) (2025-02-05T11:04:41Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - A Backbone for Long-Horizon Robot Task Understanding [8.889888977376886]
Therblig-Based Backbone Framework (TBBF)は、ロボットシステムにおける解釈可能性、データ効率、一般化を強化する構造である。
TBBFは、専門家によるデモンストレーションを利用して、rbligレベルのタスク分解を可能にする。
オフライントレーニングの段階において,正確なソルビグセグメンテーションのためのMeta-RGate SynerFusionネットワークを開発した。
オンラインテストの段階では、新しいタスクのワンショットデモが収集された後、MGSFネットワークは高いレベルの知識を抽出する。
論文 参考訳(メタデータ) (2024-08-02T15:32:42Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。