論文の概要: RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
- arxiv url: http://arxiv.org/abs/2602.18742v1
- Date: Sat, 21 Feb 2026 07:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.27818
- Title: RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
- Title(参考訳): RoboCurate: ロボット学習のための行動検証ニューラルネットワークによる多様性のハーネス
- Authors: Seungku Kim, Suhyeok Jang, Byungjun Yoon, Dongyoung Kim, John Won, Jinwoo Shin,
- Abstract要約: 本稿では,アノテートされた動作の質を評価し,フィルタする新しい合成ロボットデータ生成フレームワークであるRoboCurateを紹介する。
具体的には、RoboCurateはシミュレータで予測されたアクションをリプレイし、動作の一貫性を測定してアクション品質を評価する。
我々は,RoboCurateが生成したデータに対して,実データのみを使用する場合と比較して,成功率を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 47.25770917635344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generated by video generative models has shown promise for robot learning as a scalable pipeline, but it often suffers from inconsistent action quality due to imperfectly generated videos. Recently, vision-language models (VLMs) have been leveraged to validate video quality, but they have limitations in distinguishing physically accurate videos and, even then, cannot directly evaluate the generated actions themselves. To tackle this issue, we introduce RoboCurate, a novel synthetic robot data generation framework that evaluates and filters the quality of annotated actions by comparing them with simulation replay. Specifically, RoboCurate replays the predicted actions in a simulator and assesses action quality by measuring the consistency of motion between the simulator rollout and the generated video. In addition, we unlock observation diversity beyond the available dataset via image-to-image editing and apply action-preserving video-to-video transfer to further augment appearance. We observe RoboCurate's generated data yield substantial relative improvements in success rates compared to using real data only, achieving +70.1% on GR-1 Tabletop (300 demos), +16.1% on DexMimicGen in the pre-training setup, and +179.9% in the challenging real-world ALLEX humanoid dexterous manipulation setting.
- Abstract(参考訳): ビデオ生成モデルによって生成された合成データは、スケーラブルなパイプラインとしてロボット学習を約束することを示しているが、不完全な生成ビデオによる不整合なアクション品質に悩まされることが多い。
近年,映像品質の検証に視覚言語モデル(VLM)が活用されているが,物理的に正確な映像の識別には限界があり,その場合でも生成したアクションを直接評価することはできない。
この課題に対処するために,ロボットデータ生成フレームワークであるRoboCurateを紹介し,それらとシミュレーションリプレイを比較してアノテートされた動作の質を評価・フィルタリングする。
具体的には、RoboCurateはシミュレータで予測されたアクションを再生し、シミュレータのロールアウトと生成されたビデオ間の動きの一貫性を測定することで、アクション品質を評価する。
さらに、画像と画像の編集によって利用可能なデータセットを超えて、観察の多様性を解放し、アクション保存ビデオの転送を適用して、外観をさらに強化する。
我々は、RoboCurateの生成したデータは、実際のデータのみを使用する場合に比べて、成功率をかなり向上させ、GR-1 Tabletop(300デモ)で+70.1%、事前トレーニング設定で+16.1%、実世界のALLEX人為的な操作設定で+179.9%を達成しているのを観察する。
関連論文リスト
- AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。
本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。
実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文 参考訳(メタデータ) (2025-12-12T18:59:45Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations [19.28925489415787]
RIGVidは、AI生成ビデオの模倣により、ロボットが複雑な操作タスクを実行できる。
ビデオ拡散モデルは潜在的なデモビデオを生成し、視覚言語モデルはコマンドに従わない結果を自動的にフィルタリングする。
6Dポーズトラッカーは、ビデオからオブジェクトの軌跡を抽出し、その軌跡をエンボディメント非依存の方法でロボットに再ターゲティングする。
論文 参考訳(メタデータ) (2025-07-01T17:39:59Z) - RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。
3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。
我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文 参考訳(メタデータ) (2025-06-28T05:03:31Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression [23.99292102237088]
本稿では,アクション・ビデオ・ダイナミックスをモデル化するためのヘテロジニアス・マスケッド・オートレグレス(HMA)を提案する。
ポストトレーニング後、このモデルは、ポリシーを評価し、合成データを生成するためのビデオシミュレータとして使用できる。
論文 参考訳(メタデータ) (2025-02-06T18:38:26Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - From Play to Policy: Conditional Behavior Generation from Uncurated
Robot Data [18.041329181385414]
Conditional Behavior Transformer (C-BeT) は、動作変換器のマルチモーダル生成能力と将来の目標仕様を組み合わせた手法である。
C-BeTは、プレイデータから学ぶための最先端の研究を平均45.7%改善している。
プレイデータから実世界のロボットで有用なタスク中心の振る舞いを学習できることを初めて実証する。
論文 参考訳(メタデータ) (2022-10-18T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。