論文の概要: Anything in Any Scene: Photorealistic Video Object Insertion
- arxiv url: http://arxiv.org/abs/2401.17509v1
- Date: Tue, 30 Jan 2024 23:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:04:02.330822
- Title: Anything in Any Scene: Photorealistic Video Object Insertion
- Title(参考訳): どんな場面でも:フォトリアリスティックなビデオオブジェクト挿入
- Authors: Chen Bai, Zeman Shao, Guoxiang Zhang, Di Liang, Jie Yang, Zhuorui
Zhang, Yujian Guo, Chengzhang Zhong, Yiqiao Qiu, Zhendong Wang, Yichen Guan,
Xiaoyin Zheng, Tao Wang, Cheng Lu
- Abstract要約: リアルな映像シミュレーションのための新しいフレームワークであるAnything in Any Sceneを提案する。
あらゆるオブジェクトを既存のダイナミックビデオにシームレスに挿入し、物理的なリアリズムに強く重点を置いている。
実験により、Anything in Any Sceneは、優れた幾何学的リアリズム、照明リアリズム、フォトリアリズムのシミュレーションビデオを生成する。
- 参考スコア(独自算出の注目度): 17.65822120887241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic video simulation has shown significant potential across diverse
applications, from virtual reality to film production. This is particularly
true for scenarios where capturing videos in real-world settings is either
impractical or expensive. Existing approaches in video simulation often fail to
accurately model the lighting environment, represent the object geometry, or
achieve high levels of photorealism. In this paper, we propose Anything in Any
Scene, a novel and generic framework for realistic video simulation that
seamlessly inserts any object into an existing dynamic video with a strong
emphasis on physical realism. Our proposed general framework encompasses three
key processes: 1) integrating a realistic object into a given scene video with
proper placement to ensure geometric realism; 2) estimating the sky and
environmental lighting distribution and simulating realistic shadows to enhance
the light realism; 3) employing a style transfer network that refines the final
video output to maximize photorealism. We experimentally demonstrate that
Anything in Any Scene framework produces simulated videos of great geometric
realism, lighting realism, and photorealism. By significantly mitigating the
challenges associated with video data generation, our framework offers an
efficient and cost-effective solution for acquiring high-quality videos.
Furthermore, its applications extend well beyond video data augmentation,
showing promising potential in virtual reality, video editing, and various
other video-centric applications. Please check our project website
https://anythinginanyscene.github.io for access to our project code and more
high-resolution video results.
- Abstract(参考訳): リアルなビデオシミュレーションは、仮想現実から映画制作まで、さまざまな応用にまたがる大きな可能性を示している。
これは、実際の設定でビデオをキャプチャするシナリオが非現実的か高価である場合に特に当てはまる。
映像シミュレーションにおける既存のアプローチは、しばしば照明環境を正確にモデル化したり、物体の形状を表現したり、高レベルのフォトリアリズムを達成することができない。
本稿では,既存の動的ビデオに任意のオブジェクトをシームレスに挿入し,物理的リアリズムを強く重視する,リアルな映像シミュレーションのための新奇で汎用的なフレームワークであるAnything in Any Sceneを提案する。
提案する汎用フレームワークは、3つの重要なプロセスを包含する。
1) リアルな物体を所定のシーンビデオに統合して,幾何学的リアリズムを確保する。
2) 空と環境の照明分布を推定し, 写実的な影をシミュレートして光のリアリズムを高めること。
3) 最終的な映像出力を洗練してフォトリアリズムを最大化するスタイル転送ネットワークを用いる。
実験により、Anything in Any Sceneフレームワークは、優れた幾何学的リアリズム、照明リアリズム、フォトリアリズムのシミュレーションビデオを生成する。
ビデオデータ生成に関する課題を著しく軽減することにより,高品質なビデオを取得するための効率的かつコスト効率の高いソリューションを提供する。
さらに、そのアプリケーションはビデオデータ拡張を超えて、仮想現実、ビデオ編集、その他様々なビデオ中心のアプリケーションにおいて有望な可能性を示している。
プロジェクトコードへのアクセスとより高解像度のビデオ結果について、プロジェクトのWebサイトhttps://anythinginanyscene.github.ioを参照してください。
関連論文リスト
- PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。
まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。
得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文 参考訳(メタデータ) (2021-01-16T23:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。