論文の概要: IC-World: In-Context Generation for Shared World Modeling
- arxiv url: http://arxiv.org/abs/2512.02793v1
- Date: Mon, 01 Dec 2025 16:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.911097
- Title: IC-World: In-Context Generation for Shared World Modeling
- Title(参考訳): IC-World:共有世界モデリングのためのインコンテキスト生成
- Authors: Fan Wu, Jiacheng Wei, Ruibo Li, Yi Xu, Junyou Li, Deheng Ye, Guosheng Lin,
- Abstract要約: ビデオベースの世界モデルは、多様でダイナミックな視覚環境を合成する能力に注目が集まっている。
本稿では,モデルが入力画像の集合から複数のビデオを生成し,それぞれが異なるカメラポーズで同じ世界を表す共有世界モデリングに焦点を当てる。
入力画像の並列生成を可能にする新しい生成フレームワークであるIC-Worldを提案する。
- 参考スコア(独自算出の注目度): 61.69655562995357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based world models have recently garnered increasing attention for their ability to synthesize diverse and dynamic visual environments. In this paper, we focus on shared world modeling, where a model generates multiple videos from a set of input images, each representing the same underlying world in different camera poses. We propose IC-World, a novel generation framework, enabling parallel generation for all input images via activating the inherent in-context generation capability of large video models. We further finetune IC-World via reinforcement learning, Group Relative Policy Optimization, together with two proposed novel reward models to enforce scene-level geometry consistency and object-level motion consistency among the set of generated videos. Extensive experiments demonstrate that IC-World substantially outperforms state-of-the-art methods in both geometry and motion consistency. To the best of our knowledge, this is the first work to systematically explore the shared world modeling problem with video-based world models.
- Abstract(参考訳): ビデオベースの世界モデルは、多様でダイナミックな視覚環境を合成する能力に注目が集まっている。
本稿では,モデルが入力画像の集合から複数のビデオを生成し,それぞれが異なるカメラポーズで同じ世界を表す共有世界モデリングに焦点を当てる。
提案するIC-Worldは,大容量ビデオモデルの本質的なインコンテキスト生成能力を活性化することにより,すべての入力画像の並列生成を可能にする,新しい生成フレームワークである。
我々はさらに、強化学習、グループ相対ポリシー最適化を通じてIC-Worldを微調整し、シーンレベルの幾何整合性とオブジェクトレベルの動き整合性を示す2つの新しい報酬モデルを提案する。
大規模な実験により、IC-Worldは幾何と運動の整合性の両方において最先端の手法を大幅に上回っていることが示された。
我々の知る限りでは、これはビデオベースの世界モデルを用いて共有世界モデリング問題を体系的に探求する最初の試みである。
関連論文リスト
- Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [35.42362065437052]
我々は、トレーニング済みの動画拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチであるVid2Worldを紹介する。
本手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するための,スケーラブルで効果的な経路を提供する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。