論文の概要: AutoVFX: Physically Realistic Video Editing from Natural Language Instructions
- arxiv url: http://arxiv.org/abs/2411.02394v1
- Date: Mon, 04 Nov 2024 18:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:23.925744
- Title: AutoVFX: Physically Realistic Video Editing from Natural Language Instructions
- Title(参考訳): AutoVFX: 自然言語による物理的リアルなビデオ編集
- Authors: Hao-Yu Hsu, Zhi-Hao Lin, Albert Zhai, Hongchi Xia, Shenlong Wang,
- Abstract要約: AutoVFXは、単一のビデオと自然言語命令から現実的でダイナミックなVFXビデオを自動生成するフレームワークである。
我々はAutoVFXの有効性を多種多様なビデオやインストラクションで検証する広範囲な実験を行った。
その結果, AutoVFX は, 生成品質, 命令アライメント, 編集の汎用性, 物理的妥当性において, 競合するすべての手法より優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 16.213061812181937
- License:
- Abstract: Modern visual effects (VFX) software has made it possible for skilled artists to create imagery of virtually anything. However, the creation process remains laborious, complex, and largely inaccessible to everyday users. In this work, we present AutoVFX, a framework that automatically creates realistic and dynamic VFX videos from a single video and natural language instructions. By carefully integrating neural scene modeling, LLM-based code generation, and physical simulation, AutoVFX is able to provide physically-grounded, photorealistic editing effects that can be controlled directly using natural language instructions. We conduct extensive experiments to validate AutoVFX's efficacy across a diverse spectrum of videos and instructions. Quantitative and qualitative results suggest that AutoVFX outperforms all competing methods by a large margin in generative quality, instruction alignment, editing versatility, and physical plausibility.
- Abstract(参考訳): 現代のヴィジュアルエフェクト(VFX)ソフトウェアは、熟練したアーティストがあらゆるもののイメージを作成することを可能にする。
しかし、作成プロセスは残酷で複雑で、日々のユーザーにとってほとんどアクセスできない。
本稿では,1つのビデオと自然言語命令から,現実的でダイナミックなVFXビデオを自動的に生成するフレームワークであるAutoVFXを紹介する。
ニューラルシーンモデリング、LLMベースのコード生成、物理シミュレーションを慎重に統合することにより、AutoVFXは、自然言語命令を使って直接制御できる物理的に接地されたフォトリアリスティックな編集効果を提供することができる。
我々はAutoVFXの有効性を多種多様なビデオやインストラクションで検証する広範囲な実験を行った。
定量的および定性的な結果から、AutoVFXは、生成品質、命令アライメント、編集の汎用性、物理的妥当性において、競合するすべての手法より優れていることが示唆された。
関連論文リスト
- PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving [12.004604110512421]
視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。
本稿では,駆動ビデオを生成するためのDriveGenVLMフレームワークを提案し,それらを理解するためにVLMを使用する。
論文 参考訳(メタデータ) (2024-08-29T15:52:56Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - Interactive Generation of Laparoscopic Videos with Diffusion Models [1.5488613349551188]
そこで本研究では,外科的動作をテキストで指定することで,現実的な腹腔鏡画像と映像を生成する方法について述べる。
我々は、Colecデータセットファミリを使用して、我々のアプローチの性能を実証する。
我々は38.097のFIDと0.71のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-04-23T12:36:07Z) - LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents [49.11254369459406]
ChatSimは、編集可能な3Dドライビングシーンシミュレーションを、外部デジタル資産を持つ自然言語コマンドで実現した最初のシステムである。
ChatSimは、フォトリアリスティックな結果を生成するために、新しいマルチカメラニューラルフィールド法を採用している。
論文 参考訳(メタデータ) (2024-02-08T15:26:28Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Dynamic Storyboard Generation in an Engine-based Virtual Environment for
Video Production [92.14891282042764]
VDS(Virtual Dynamic Storyboard)を導入し,仮想環境でのストーリーボード撮影を可能にする。
形式化されたストーリースクリプトとカメラスクリプトが入力として与えられたら、いくつかのキャラクターアニメーションとカメラムーブメント提案を生成する。
候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。
論文 参考訳(メタデータ) (2023-01-30T06:37:35Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。