論文の概要: Rethinking Video Generation Model for the Embodied World
- arxiv url: http://arxiv.org/abs/2601.15282v1
- Date: Wed, 21 Jan 2026 18:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.508146
- Title: Rethinking Video Generation Model for the Embodied World
- Title(参考訳): エンボディード・ワールドのための映像生成モデルの再考
- Authors: Yufan Deng, Zilin Pan, Hongyu Zhang, Xiaojie Li, Ruoqing Hu, Yufei Ding, Yiming Zou, Yan Zeng, Daquan Zhou,
- Abstract要約: RBenchは5つのタスク領域と4つの異なる実施形態でロボット指向のビデオ生成を評価するように設計されている。
25個の代表モデルの評価は、身体的現実的なロボット行動の生成において重大な欠陥を浮き彫りにしている。
改良された4段階のデータパイプラインを導入し、400万の注釈付きビデオクリップを備えたビデオ生成のための、最大のオープンソースロボットデータセットであるRoVid-Xを開発した。
- 参考スコア(独自算出の注目度): 26.174517437895616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models have significantly advanced embodied intelligence, unlocking new possibilities for generating diverse robot data that capture perception, reasoning, and action in the physical world. However, synthesizing high-quality videos that accurately reflect real-world robotic interactions remains challenging, and the lack of a standardized benchmark limits fair comparisons and progress. To address this gap, we introduce a comprehensive robotics benchmark, RBench, designed to evaluate robot-oriented video generation across five task domains and four distinct embodiments. It assesses both task-level correctness and visual fidelity through reproducible sub-metrics, including structural consistency, physical plausibility, and action completeness. Evaluation of 25 representative models highlights significant deficiencies in generating physically realistic robot behaviors. Furthermore, the benchmark achieves a Spearman correlation coefficient of 0.96 with human evaluations, validating its effectiveness. While RBench provides the necessary lens to identify these deficiencies, achieving physical realism requires moving beyond evaluation to address the critical shortage of high-quality training data. Driven by these insights, we introduce a refined four-stage data pipeline, resulting in RoVid-X, the largest open-source robotic dataset for video generation with 4 million annotated video clips, covering thousands of tasks and enriched with comprehensive physical property annotations. Collectively, this synergistic ecosystem of evaluation and data establishes a robust foundation for rigorous assessment and scalable training of video models, accelerating the evolution of embodied AI toward general intelligence.
- Abstract(参考訳): ビデオ生成モデルは、インテリジェンスを大幅に進歩させ、物理的な世界で知覚、推論、アクションをキャプチャする多様なロボットデータを生成する新たな可能性を解き放っている。
しかし、現実世界のロボットインタラクションを正確に反映した高品質なビデオの合成は依然として困難であり、標準化されたベンチマークの欠如は、公正な比較と進歩を制限している。
このギャップに対処するために、我々は5つのタスク領域と4つの異なる実施形態でロボット指向のビデオ生成を評価するために設計された総合的なロボティクスベンチマークRBenchを紹介した。
再現可能なサブメトリック(構造整合性、物理的妥当性、行動完全性など)によって、タスクレベルの正確さと視覚的忠実度の両方を評価する。
25の代表的なモデルの評価は、物理的に現実的なロボット行動を生成する上で、重大な欠陥を浮き彫りにしている。
さらに、このベンチマークは人間の評価と0.96のスピアマン相関係数を達成し、その有効性を検証する。
RBenchはこれらの欠陥を特定するために必要なレンズを提供するが、物理的リアリズムを達成するには、高品質なトレーニングデータの重大な不足に対処するためには、評価を超えて移動する必要がある。
結果としてRoVid-Xは、400万の注釈付きビデオクリップを持ち、何千ものタスクをカバーし、包括的な物理的プロパティアノテーションでリッチ化されたビデオ生成のための、最大のオープンソースのロボットデータセットとなった。
このシナジスティックな評価とデータのエコシステムは、厳格な評価とビデオモデルのスケーラブルなトレーニングのための堅牢な基盤を確立し、インボディードAIの汎用インテリジェンスへの進化を加速します。
関連論文リスト
- AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。
本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。
実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文 参考訳(メタデータ) (2025-12-12T18:59:45Z) - Invariance Co-training for Robot Visual Generalization [72.88252238231269]
多様な観察から推論することは、汎用的なロボットポリシーが幅広い環境で動作するための基本的な能力である。
多様なデータによる協調学習は,既存の生成的拡張法よりも18%向上することを示した。
論文 参考訳(メタデータ) (2025-12-04T20:08:46Z) - Synthetic Dataset Generation for Autonomous Mobile Robots Using 3D Gaussian Splatting for Vision Training [0.708987965338602]
本論文では,Unreal Engineにおける注釈付き合成データの自動生成手法を提案する。
合成データセットが実世界のデータセットに匹敵する性能を達成できることを実証する。
これは、ロボットサッカーにおけるオブジェクト検出アルゴリズムのトレーニングのための合成データの最初の応用である。
論文 参考訳(メタデータ) (2025-06-05T14:37:40Z) - ORV: 4D Occupancy-centric Robot Video Generation [33.360345403049685]
遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。
ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。
ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
論文 参考訳(メタデータ) (2025-06-03T17:00:32Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Maintaining a Reliable World Model using Action-aware Perceptual
Anchoring [4.971403153199917]
物体が見えなくなったり見えなくなったりしても、ロボットは周囲のモデルを維持する必要がある。
これは、環境内のオブジェクトを表すシンボルに知覚情報をアンカーする必要がある。
本稿では,ロボットが物体を永続的に追跡できる行動認識型知覚アンカーのモデルを提案する。
論文 参考訳(メタデータ) (2021-07-07T06:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。