論文の概要: Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions
- arxiv url: http://arxiv.org/abs/2601.07823v1
- Date: Mon, 12 Jan 2026 18:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.752085
- Title: Video Generation Models in Robotics -- Applications, Research Challenges, Future Directions
- Title(参考訳): ロボットにおける映像生成モデル -応用, 研究課題, 今後の方向性-
- Authors: Zhiting Mei, Tenny Yin, Ola Shorinwa, Apurva Badithela, Zhonghe Zheng, Joseph Bruno, Madison Bland, Lihan Zha, Asher Hancock, Jaime Fernández Fisac, Philip Dames, Anirudha Majumdar,
- Abstract要約: ビデオ生成モデルは、物理世界の高忠実度モデルとして登場した。
彼らの素晴らしい能力は、物理学ベースのシミュレーターが長年直面してきた課題の多くに対処する。
ビデオモデルは、微細で表現力のある方法で世界のダイナミクスを捉える基礎的世界モデルとして機能する。
- 参考スコア(独自算出の注目度): 8.394623480341307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation models have emerged as high-fidelity models of the physical world, capable of synthesizing high-quality videos capturing fine-grained interactions between agents and their environments conditioned on multi-modal user inputs. Their impressive capabilities address many of the long-standing challenges faced by physics-based simulators, driving broad adoption in many problem domains, e.g., robotics. For example, video models enable photorealistic, physically consistent deformable-body simulation without making prohibitive simplifying assumptions, which is a major bottleneck in physics-based simulation. Moreover, video models can serve as foundation world models that capture the dynamics of the world in a fine-grained and expressive way. They thus overcome the limited expressiveness of language-only abstractions in describing intricate physical interactions. In this survey, we provide a review of video models and their applications as embodied world models in robotics, encompassing cost-effective data generation and action prediction in imitation learning, dynamics and rewards modeling in reinforcement learning, visual planning, and policy evaluation. Further, we highlight important challenges hindering the trustworthy integration of video models in robotics, which include poor instruction following, hallucinations such as violations of physics, and unsafe content generation, in addition to fundamental limitations such as significant data curation, training, and inference costs. We present potential future directions to address these open research challenges to motivate research and ultimately facilitate broader applications, especially in safety-critical settings.
- Abstract(参考訳): ビデオ生成モデルは物理世界の高忠実度モデルとして登場し、マルチモーダルなユーザ入力で調整されたエージェントと環境間のきめ細かいインタラクションをキャプチャする高品質なビデオの合成が可能になった。
彼らの素晴らしい能力は、物理学ベースのシミュレーターが直面する長年の課題の多くに対処し、多くの問題領域、例えばロボティクスで広く採用されている。
例えば、ビデオモデルは、物理ベースのシミュレーションの大きなボトルネックである禁断的な単純化をすることなく、フォトリアリスティックで物理的に一貫した変形可能なボディシミュレーションを可能にする。
さらに、ビデオモデルは、微細で表現力のある方法で世界のダイナミクスを捉える基礎的世界モデルとして機能する。
これにより、複雑な物理的相互作用を記述する際に、言語のみの抽象化の限定的な表現性を克服する。
本稿では,ロボット工学における仮想世界モデルとしての映像モデルとその応用について,模倣学習における費用効率の良いデータ生成と行動予測,強化学習における力学と報酬のモデリング,視覚計画,政策評価を概説する。
さらに、ロボット工学における映像モデルの信頼性の高い統合を妨げる重要な課題として、物理の違反などの幻覚、安全でないコンテンツ生成、データキュレーション、トレーニング、推論コストなどの基本的制約などを挙げる。
我々は、これらのオープンな研究課題に対処し、研究を動機付け、究極的には、特に安全クリティカルな環境での幅広い応用を促進するための、将来的な方向性を提示する。
関連論文リスト
- Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals [15.286299359279509]
Goal Forceを使えば、明示的な力ベクトルと中間ダイナミクスを使って目標を定義することができる。
我々は、合成因果プリミティブのキュレートされたデータセットに基づいて、ビデオ生成モデルを訓練する。
以上の結果から,映像生成を基礎的な物理相互作用で基礎づけることで,暗黙的な神経物理シミュレータとしてモデルが現れる可能性が示唆された。
論文 参考訳(メタデータ) (2026-01-09T15:23:36Z) - AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。
本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。
実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文 参考訳(メタデータ) (2025-12-12T18:59:45Z) - Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - RoboScape: Physics-informed Embodied World Model [25.61586473778092]
本稿では、RGBビデオ生成と物理知識を共同で学習する統合物理インフォームドワールドモデルであるRoboScapeを紹介する。
実験によると、RoboScapeは多様なロボットシナリオにまたがって、優れた視覚的忠実度と物理的妥当性を持つビデオを生成する。
我々の研究は、エンボディドインテリジェンス研究を前進させるために、効率的な物理インフォームド世界モデルを構築するための新しい洞察を提供する。
論文 参考訳(メタデータ) (2025-06-29T08:19:45Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [30.245348014602577]
本稿では,テキストからの映像生成の進化について論じる。まずMNISTの数値をアニメーション化し,ソラで物理世界をシミュレートする。
Soraが生成するビデオの欠点に関するレビューでは、ビデオ生成の様々な実現可能な側面において、より深い研究を求める声が浮き彫りになっている。
テキスト・ビデオ・ジェネレーションの研究は、まだ初期段階であり、学際的な研究コミュニティからの貢献が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-03-08T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。