論文の概要: AutoVFX: Physically Realistic Video Editing from Natural Language Instructions
- arxiv url: http://arxiv.org/abs/2411.02394v1
- Date: Mon, 04 Nov 2024 18:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:23.925744
- Title: AutoVFX: Physically Realistic Video Editing from Natural Language Instructions
- Title(参考訳): AutoVFX: 自然言語による物理的リアルなビデオ編集
- Authors: Hao-Yu Hsu, Zhi-Hao Lin, Albert Zhai, Hongchi Xia, Shenlong Wang,
- Abstract要約: AutoVFXは、単一のビデオと自然言語命令から現実的でダイナミックなVFXビデオを自動生成するフレームワークである。
我々はAutoVFXの有効性を多種多様なビデオやインストラクションで検証する広範囲な実験を行った。
その結果, AutoVFX は, 生成品質, 命令アライメント, 編集の汎用性, 物理的妥当性において, 競合するすべての手法より優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 16.213061812181937
- License:
- Abstract: Modern visual effects (VFX) software has made it possible for skilled artists to create imagery of virtually anything. However, the creation process remains laborious, complex, and largely inaccessible to everyday users. In this work, we present AutoVFX, a framework that automatically creates realistic and dynamic VFX videos from a single video and natural language instructions. By carefully integrating neural scene modeling, LLM-based code generation, and physical simulation, AutoVFX is able to provide physically-grounded, photorealistic editing effects that can be controlled directly using natural language instructions. We conduct extensive experiments to validate AutoVFX's efficacy across a diverse spectrum of videos and instructions. Quantitative and qualitative results suggest that AutoVFX outperforms all competing methods by a large margin in generative quality, instruction alignment, editing versatility, and physical plausibility.
- Abstract(参考訳): 現代のヴィジュアルエフェクト(VFX)ソフトウェアは、熟練したアーティストがあらゆるもののイメージを作成することを可能にする。
しかし、作成プロセスは残酷で複雑で、日々のユーザーにとってほとんどアクセスできない。
本稿では,1つのビデオと自然言語命令から,現実的でダイナミックなVFXビデオを自動的に生成するフレームワークであるAutoVFXを紹介する。
ニューラルシーンモデリング、LLMベースのコード生成、物理シミュレーションを慎重に統合することにより、AutoVFXは、自然言語命令を使って直接制御できる物理的に接地されたフォトリアリスティックな編集効果を提供することができる。
我々はAutoVFXの有効性を多種多様なビデオやインストラクションで検証する広範囲な実験を行った。
定量的および定性的な結果から、AutoVFXは、生成品質、命令アライメント、編集の汎用性、物理的妥当性において、競合するすべての手法より優れていることが示唆された。
関連論文リスト
- VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer [56.81599836980222]
本稿では,ユーザフレンドリーなテキスト記述と静的参照画像から動的エフェクトを生成する,画像アニメーションとしてのVFX生成のための新しいパラダイムを提案する。
i) VFXは15の多様なエフェクトカテゴリにまたがる最初の高品質なVFXビデオデータセットで、テキストによる記述と時間制御のためのスタートエンドタイムスタンプと、(ii) Video Diffusion Transformerをベースとした制御可能なVFX生成フレームワークであるVFX Creatorである。
論文 参考訳(メタデータ) (2025-02-09T18:12:25Z) - DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models [83.28670336340608]
逆レンダリングとフォワードレンダリングの二重問題に対処するニューラルアプローチであるDiffusionRendererを導入する。
本モデルは,リライティング,素材編集,現実的なオブジェクト挿入など,単一のビデオ入力から現実的な応用を可能にする。
論文 参考訳(メタデータ) (2025-01-30T18:59:11Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - TexAVi: Generating Stereoscopic VR Video Clips from Text Descriptions [0.562479170374811]
本稿では,既存の生成システムを融合してテキストから立体視のバーチャルリアリティービデオを作成する手法を提案する。
私たちの研究は、バーチャルリアリティーシミュレーションのような分野において自然言語駆動グラフィックスを使うことのエキサイティングな可能性を強調します。
論文 参考訳(メタデータ) (2025-01-02T09:21:03Z) - UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics [74.10447111842504]
UniRealは、様々な画像生成および編集タスクに対処するために設計された統一されたフレームワークである。
近年の映像生成モデルに着想を得て,画像レベルのタスクを不連続な映像生成として扱う統一的手法を提案する。
画像レベルのタスク用に設計されているが、ユニバーサルな監視のためのスケーラブルなソースとしてビデオを活用している。
論文 参考訳(メタデータ) (2024-12-10T18:59:55Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving [12.004604110512421]
視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。
本稿では,駆動ビデオを生成するためのDriveGenVLMフレームワークを提案し,それらを理解するためにVLMを使用する。
論文 参考訳(メタデータ) (2024-08-29T15:52:56Z) - LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents [49.11254369459406]
ChatSimは、編集可能な3Dドライビングシーンシミュレーションを、外部デジタル資産を持つ自然言語コマンドで実現した最初のシステムである。
ChatSimは、フォトリアリスティックな結果を生成するために、新しいマルチカメラニューラルフィールド法を採用している。
論文 参考訳(メタデータ) (2024-02-08T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。