論文の概要: ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling
- arxiv url: http://arxiv.org/abs/2603.02697v1
- Date: Tue, 03 Mar 2026 07:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.692934
- Title: ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling
- Title(参考訳): ShareVerse:共有ワールドモデリングのためのマルチエージェント一貫性ビデオ生成
- Authors: Jiayi Zhu, Jianing Zhang, Yiying Yang, Wei Cheng, Xiaoyun Yuan,
- Abstract要約: 本稿では,マルチエージェント共有ワールドモデリングを実現するビデオ生成フレームワークであるShareVerseについて述べる。
CARLAシミュレーションプラットフォーム上に,大規模インタラクティブな世界モデリングのためのデータセットを構築した。
本研究では,より広い環境をモデル化する独立エージェントの4視点映像の空間結合戦略を提案する。
我々は,エージェント間の空間的時間情報の対話的伝達を可能にする,事前訓練されたビデオモデルにエージェント間注意ブロックを組み込む。
- 参考スコア(独自算出の注目度): 16.27470663877285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents ShareVerse, a video generation framework enabling multi-agent shared world modeling, addressing the gap in existing works that lack support for unified shared world construction with multi-agent interaction. ShareVerse leverages the generation capability of large video models and integrates three key innovations: 1) A dataset for large-scale multi-agent interactive world modeling is built on the CARLA simulation platform, featuring diverse scenes, weather conditions, and interactive trajectories with paired multi-view videos (front/ rear/ left/ right views per agent) and camera data. 2) We propose a spatial concatenation strategy for four-view videos of independent agents to model a broader environment and to ensure internal multi-view geometric consistency. 3) We integrate cross-agent attention blocks into the pretrained video model, which enable interactive transmission of spatial-temporal information across agents, guaranteeing shared world consistency in overlapping regions and reasonable generation in non-overlapping regions. ShareVerse, which supports 49-frame large-scale video generation, accurately perceives the position of dynamic agents and achieves consistent shared world modeling.
- Abstract(参考訳): 本稿では,マルチエージェントの共有ワールドモデリングを実現するためのビデオ生成フレームワークであるShareVerseについて述べる。
ShareVerseは大規模なビデオモデルの生成能力を活用し、3つの重要なイノベーションを統合する。
1) CARLAシミュレーションプラットフォーム上に大規模なマルチエージェント・インタラクティブ・ワールド・モデリングのためのデータセットを構築し, 多様なシーン, 気象条件, インタラクティブ・トラジェクトリと, カメラ・データとのペア・マルチビュー・ビデオ(前/後/左/右/エージェント毎のビュー)を特徴とする。
2) より広い環境をモデル化し, 内部の多視点幾何整合性を確保するために, 独立エージェントの4視点映像の空間結合戦略を提案する。
3) エージェント間での空間的時間情報の対話的伝達, 重なり合う領域における共有世界整合性の確保, 重複しない領域における合理的な生成を実現する。
49フレームの大規模ビデオ生成をサポートするShareVerseは,動的エージェントの位置を正確に認識し,一貫した共有ワールドモデリングを実現する。
関連論文リスト
- A Versatile Multimodal Agent for Multimedia Content Generation [66.86040734610073]
複雑なコンテンツ作成タスクの自動化を目的としたMultiMedia-Agentを提案する。
エージェントシステムには、データ生成パイプライン、コンテンツ作成のためのツールライブラリ、嗜好アライメントを評価するためのメトリクスセットが含まれている。
論文 参考訳(メタデータ) (2026-01-06T18:49:47Z) - Diffusion Forcing for Multi-Agent Interaction Sequence Modeling [52.769202433667125]
MAGNetはマルチエージェントモーション生成のための統合された自己回帰拡散フレームワークである。
フレキシブルな条件付けとサンプリングを通じて、幅広いインタラクションタスクをサポートする。
緊密に同期された活動と、ゆるやかに構造化された社会的相互作用の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-12-19T18:59:02Z) - IC-World: In-Context Generation for Shared World Modeling [61.69655562995357]
ビデオベースの世界モデルは、多様でダイナミックな視覚環境を合成する能力に注目が集まっている。
本稿では,モデルが入力画像の集合から複数のビデオを生成し,それぞれが異なるカメラポーズで同じ世界を表す共有世界モデリングに焦点を当てる。
入力画像の並列生成を可能にする新しい生成フレームワークであるIC-Worldを提案する。
論文 参考訳(メタデータ) (2025-12-01T16:52:02Z) - Yan: Foundational Interactive Video Generation [25.398980906541524]
Yanはインタラクティブなビデオ生成の基盤となるフレームワークで、シミュレーションや生成から編集まで、パイプライン全体をカバーしている。
高圧縮低遅延3D-VAE と KV-cache-based shift-window denoising inference を併用して設計する。
本稿では,インタラクティブなメカニクスシミュレーションを視覚的レンダリングから明確に切り離すハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2025-08-12T03:34:21Z) - VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion and Restoration [26.59510171451438]
既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
論文 参考訳(メタデータ) (2025-03-30T08:27:18Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。