論文の概要: A Survey of Interactive Generative Video
- arxiv url: http://arxiv.org/abs/2504.21853v1
- Date: Wed, 30 Apr 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 17:24:58.309408
- Title: A Survey of Interactive Generative Video
- Title(参考訳): インタラクティブな生成ビデオに関する調査
- Authors: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu,
- Abstract要約: インタラクティブ・ジェネレーティブ・ビデオ(IGV)は、様々な領域にわたる高品質でインタラクティブなビデオコンテンツの需要の高まりに対応して、重要な技術として登場した。
1)ゲーム、IGVが仮想世界で無限に探索できるゲーム、2)AIの具体化、IGVは動的に進化するシーンとのマルチモーダルインタラクションにおいて、エージェントを訓練するための物理認識環境として機能する。
理想的なIGVシステムを,ジェネレーション,制御,メモリ,ダイナミクス,インテリジェンスという5つの重要なモジュールに分解する包括的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.05078841517754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive Generative Video (IGV) has emerged as a crucial technology in response to the growing demand for high-quality, interactive video content across various domains. In this paper, we define IGV as a technology that combines generative capabilities to produce diverse high-quality video content with interactive features that enable user engagement through control signals and responsive feedback. We survey the current landscape of IGV applications, focusing on three major domains: 1) gaming, where IGV enables infinite exploration in virtual worlds; 2) embodied AI, where IGV serves as a physics-aware environment synthesizer for training agents in multimodal interaction with dynamically evolving scenes; and 3) autonomous driving, where IGV provides closed-loop simulation capabilities for safety-critical testing and validation. To guide future development, we propose a comprehensive framework that decomposes an ideal IGV system into five essential modules: Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we systematically analyze the technical challenges and future directions in realizing each component for an ideal IGV system, such as achieving real-time generation, enabling open-domain control, maintaining long-term coherence, simulating accurate physics, and integrating causal reasoning. We believe that this systematic analysis will facilitate future research and development in the field of IGV, ultimately advancing the technology toward more sophisticated and practical applications.
- Abstract(参考訳): インタラクティブ・ジェネレーティブ・ビデオ(IGV)は、様々な領域にわたる高品質でインタラクティブなビデオコンテンツの需要の高まりに対応して、重要な技術として登場した。
本稿では,IGVを生成能力と多種多様な高品質ビデオコンテンツと,制御信号と応答応答によるユーザエンゲージメントを実現するインタラクティブ機能を組み合わせた技術として定義する。
IGVアプリケーションの現状を3つの主要領域に焦点をあてて調査する。
1) 仮想世界でIGVが無限に探索できるゲーム
2)AIを具現化し,IGVは動的に進化するシーンとのマルチモーダルインタラクションにおいて,エージェントを訓練するための物理認識環境シンセサイザーとして機能する。
IGVは安全クリティカルなテストと検証のためのクローズドループシミュレーション機能を提供する。
今後の開発を導くため,理想的なIGVシステムを,生成,制御,メモリ,ダイナミクス,インテリジェンスという5つの重要なモジュールに分解する包括的フレームワークを提案する。
さらに,実時間生成の実現,オープンドメイン制御の実現,長期的一貫性の維持,正確な物理シミュレーション,因果推論の統合など,各コンポーネントの実現における技術的課題と今後の方向性を体系的に分析する。
この体系的な分析によってIGVの分野における将来の研究開発が促進され、究極的にはより高度で実用的な応用に向けて技術が前進すると考えている。
関連論文リスト
- Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。
具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-23T10:33:28Z) - VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion [5.6565850326929485]
本稿では、視覚言語モデルを用いて、注意喚起手段を提供することでトレーニングを強化する新しいフレームワークを提案する。
本手法は,テキスト表現をBird's-Eye-View (BEV) 機能に統合し,意味的管理を行う。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-25T10:02:12Z) - A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving [12.004604110512421]
視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。
本稿では,駆動ビデオを生成するためのDriveGenVLMフレームワークを提案し,それらを理解するためにVLMを使用する。
論文 参考訳(メタデータ) (2024-08-29T15:52:56Z) - V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM [0.0]
本稿では,GUIの理解と基盤化の領域に革命をもたらすために,MLLM (Multimodal Large Language Model) を巧みに構築した V-Zen について述べる。
V-Zenは、効率的な接地と次のアクション予測のための新しいベンチマークを確立する。
V-ZenとGUIDEの統合の成功は、マルチモーダルAI研究における新たな時代の幕開けを告げ、インテリジェントで自律的なコンピューティング体験への扉を開く。
論文 参考訳(メタデータ) (2024-05-24T08:21:45Z) - A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming [26.082980156232086]
生成人工知能(Generative AI)と大規模言語モデル(LLM)は、ビデオ技術の分野を変えつつある。
この論文は、高度にリアルなビデオ制作におけるこれらの技術の革新的利用を強調している。
ビデオストリーミングの分野では、LLMがより効率的でユーザ中心のストリーミング体験にどのように貢献するかを論じる。
論文 参考訳(メタデータ) (2024-01-30T14:37:10Z) - From Generative AI to Generative Internet of Things: Fundamentals,
Framework, and Outlooks [82.964958051535]
生成人工知能(GAI)は、現実的なデータを生成し、高度な意思決定を促進する能力を持っている。
GAIを現代のモノのインターネット(IoT)に統合することによって、ジェネレーティブ・インターネット・オブ・モノ(GIoT)が登場し、社会の様々な側面に革命をもたらす大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-10-27T02:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。