論文の概要: OXE-AugE: A Large-Scale Robot Augmentation of OXE for Scaling Cross-Embodiment Policy Learning
- arxiv url: http://arxiv.org/abs/2512.13100v1
- Date: Mon, 15 Dec 2025 08:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.58952
- Title: OXE-AugE: A Large-Scale Robot Augmentation of OXE for Scaling Cross-Embodiment Policy Learning
- Title(参考訳): OXE-AugE: クロス・エボディメント・ポリシー学習のためのOxEの大規模ロボット強化
- Authors: Guanhua Ji, Harsha Polavaram, Lawrence Yunliang Chen, Sandeep Bajamahal, Zehan Ma, Simeon Adebola, Chenfeng Xu, Ken Goldberg,
- Abstract要約: 移動と一般化のために既存のロボットデータを拡張できることが示される。
OXE-AugEは440万以上の軌道を提供しており、オリジナルのOXEの3倍以上の大きさである。
その結果,多様なアームとグリップでデータセットを増強することで,政策性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 22.05043551465852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large and diverse datasets are needed for training generalist robot policies that have potential to control a variety of robot embodiments -- robot arm and gripper combinations -- across diverse tasks and environments. As re-collecting demonstrations and retraining for each new hardware platform are prohibitively costly, we show that existing robot data can be augmented for transfer and generalization. The Open X-Embodiment (OXE) dataset, which aggregates demonstrations from over 60 robot datasets, has been widely used as the foundation for training generalist policies. However, it is highly imbalanced: the top four robot types account for over 85\% of its real data, which risks overfitting to robot--scene combinations. We present AugE-Toolkit, a scalable robot augmentation pipeline, and OXE-AugE, a high-quality open-source dataset that augments OXE with 9 different robot embodiments. OXE-AugE provides over 4.4 million trajectories, more than triple the size of the original OXE. We conduct a systematic study of how scaling robot augmentation impacts cross-embodiment learning. Results suggest that augmenting datasets with diverse arms and grippers improves policy performance not only on the augmented robots, but also on unseen robots and even the original robots under distribution shifts. In physical experiments, we demonstrate that state-of-the-art generalist policies such as OpenVLA and $π_0$ benefit from fine-tuning on OXE-AugE, improving success rates by 24-45% on previously unseen robot--gripper combinations across four real-world manipulation tasks. Project website: https://OXE-AugE.github.io/.
- Abstract(参考訳): ロボットアームとグリップの組み合わせなど、さまざまなタスクや環境にまたがるさまざまなロボットを制御できる可能性を秘めた、汎用的なロボットポリシーのトレーニングには、大規模で多様なデータセットが必要である。
新たなハードウェアプラットフォームにおけるデモの再収集と再トレーニングは極めてコストがかかるため,移動や一般化のために既存のロボットデータを拡張できることが示される。
60以上のロボットデータセットからデモを集約するOpen X-Embodiment(OXE)データセットは、ジェネラリストポリシーのトレーニング基盤として広く使用されている。
しかし、上位4つのロボットタイプは、実際のデータの85%以上を占めており、ロボットのシーンの組み合わせに過度に適合するリスクがある。
我々は、スケーラブルなロボット拡張パイプラインであるAugE-Toolkitと、9つの異なるロボットエボディメントでOXEを増強する高品質なオープンソースデータセットであるOXE-AugEを紹介する。
OXE-AugEは440万以上の軌道を提供しており、オリジナルのOXEの3倍以上の大きさである。
本研究では,ロボットのスケーリングが身体間学習にどのように影響するかを体系的に研究する。
その結果,多種多様なアームとグリップによるデータセットの強化は,強化ロボットだけでなく,未知のロボットや,流通シフト中のオリジナルのロボットに対しても,ポリシー性能を向上させることが示唆された。
物理実験では、OpenVLAや$π_0$といった最先端のジェネラリストの政策がOXE-AugEの微調整の恩恵を受け、実世界の4つの操作タスクにまたがるロボット-グリッパーの組み合わせにおいて、成功率を24-45%向上することを示した。
プロジェクトウェブサイト: https://OXE-AugE.github.io/
関連論文リスト
- RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video [56.9581053843815]
画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介する。
ロボットへの適応の欠如、手動のプロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処する。
それは、画像とビデオの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-28T07:51:02Z) - DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies [31.147473662739692]
大規模で多様なロボットデータセットが、巧妙な操作ポリシーを実現するための有望な道として登場した。
しかし、そのようなデータセットの取得には多くの課題がある。
毎日のように自分の手を使ってデータを収集できるとしたらどうだろう?
DexWildでは、さまざまなデータ収集チームが手を使って、さまざまな環境やオブジェクトにわたる数時間のインタラクションを収集しています。
論文 参考訳(メタデータ) (2025-05-12T17:59:05Z) - The One RING: a Robotic Indoor Navigation Generalist [58.30694487843546]
RING (Robotic Indoor Navigation Generalist) は、あらゆる移動ロボットを効果的な屋内セマンティックナビゲータに変えるための具体的方針である。
完全にシミュレーションで訓練されたRingは、ロボットによる大規模なランダム化を利用して、多くの現実世界のプラットフォームに堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-12-18T23:15:41Z) - RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version) [25.298789781487084]
RoboTwinは、多種多様な専門家データセットを生成するために、3D生成基盤モデルと大規模言語モデルを使用する生成デジタルツインフレームワークである。
具体的には、RoboTwinは単一の2D画像からさまざまなデジタルツインを生成し、現実的でインタラクティブなシナリオを生成する。
我々のフレームワークはシミュレーションデータと実世界のデータの両方で包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと実世界のパフォーマンスの整合性を向上させる。
論文 参考訳(メタデータ) (2024-09-04T17:59:52Z) - Semantically Controllable Augmentations for Generalizable Robot Learning [40.89398799604755]
ロボット操作の現実に見えないシナリオへの一般化には、トレーニング中にさまざまなデータセットを公開する必要がある。
本稿では,意味制御可能な拡張とロボットデータセットの高速乗算のための生成的拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-02T05:25:34Z) - Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation [49.03165169369552]
さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。
そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。
我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。
論文 参考訳(メタデータ) (2024-08-21T17:57:51Z) - Octo: An Open-Source Generalist Robot Policy [88.14295917143188]
ここでは,Open X-Embodimentデータセットから800kトラジェクトリをトレーニングした,大規模なトランスフォーマーベースのポリシであるOctoを紹介する。
標準のGPUでは数時間以内に、新しいセンサー入力とアクションスペースを備えたロボットセットアップに効果的にカスタマイズできる。
また,アーキテクチャからトレーニングデータに至るまで,Octoモデルの設計決定の詳細な説明を行い,汎用ロボットモデルの構築に関する今後の研究を指導する。
論文 参考訳(メタデータ) (2024-05-20T17:57:01Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。