Fugu-MT 論文翻訳(概要): Anything in Any Scene: Photorealistic Video Object Insertion

論文の概要: Anything in Any Scene: Photorealistic Video Object Insertion

arxiv url: http://arxiv.org/abs/2401.17509v1
Date: Tue, 30 Jan 2024 23:54:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 16:04:02.330822
Title: Anything in Any Scene: Photorealistic Video Object Insertion
Title（参考訳）: どんな場面でも:フォトリアリスティックなビデオオブジェクト挿入
Authors: Chen Bai, Zeman Shao, Guoxiang Zhang, Di Liang, Jie Yang, Zhuorui Zhang, Yujian Guo, Chengzhang Zhong, Yiqiao Qiu, Zhendong Wang, Yichen Guan, Xiaoyin Zheng, Tao Wang, Cheng Lu
Abstract要約: リアルな映像シミュレーションのための新しいフレームワークであるAnything in Any Sceneを提案する。あらゆるオブジェクトを既存のダイナミックビデオにシームレスに挿入し、物理的なリアリズムに強く重点を置いている。実験により、Anything in Any Sceneは、優れた幾何学的リアリズム、照明リアリズム、フォトリアリズムのシミュレーションビデオを生成する。
参考スコア（独自算出の注目度）: 17.65822120887241
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Realistic video simulation has shown significant potential across diverse applications, from virtual reality to film production. This is particularly true for scenarios where capturing videos in real-world settings is either impractical or expensive. Existing approaches in video simulation often fail to accurately model the lighting environment, represent the object geometry, or achieve high levels of photorealism. In this paper, we propose Anything in Any Scene, a novel and generic framework for realistic video simulation that seamlessly inserts any object into an existing dynamic video with a strong emphasis on physical realism. Our proposed general framework encompasses three key processes: 1) integrating a realistic object into a given scene video with proper placement to ensure geometric realism; 2) estimating the sky and environmental lighting distribution and simulating realistic shadows to enhance the light realism; 3) employing a style transfer network that refines the final video output to maximize photorealism. We experimentally demonstrate that Anything in Any Scene framework produces simulated videos of great geometric realism, lighting realism, and photorealism. By significantly mitigating the challenges associated with video data generation, our framework offers an efficient and cost-effective solution for acquiring high-quality videos. Furthermore, its applications extend well beyond video data augmentation, showing promising potential in virtual reality, video editing, and various other video-centric applications. Please check our project website https://anythinginanyscene.github.io for access to our project code and more high-resolution video results.
Abstract（参考訳）: リアルなビデオシミュレーションは、仮想現実から映画制作まで、さまざまな応用にまたがる大きな可能性を示している。これは、実際の設定でビデオをキャプチャするシナリオが非現実的か高価である場合に特に当てはまる。映像シミュレーションにおける既存のアプローチは、しばしば照明環境を正確にモデル化したり、物体の形状を表現したり、高レベルのフォトリアリズムを達成することができない。本稿では,既存の動的ビデオに任意のオブジェクトをシームレスに挿入し,物理的リアリズムを強く重視する,リアルな映像シミュレーションのための新奇で汎用的なフレームワークであるAnything in Any Sceneを提案する。提案する汎用フレームワークは、3つの重要なプロセスを包含する。 1) リアルな物体を所定のシーンビデオに統合して,幾何学的リアリズムを確保する。 2) 空と環境の照明分布を推定し, 写実的な影をシミュレートして光のリアリズムを高めること。 3) 最終的な映像出力を洗練してフォトリアリズムを最大化するスタイル転送ネットワークを用いる。実験により、Anything in Any Sceneフレームワークは、優れた幾何学的リアリズム、照明リアリズム、フォトリアリズムのシミュレーションビデオを生成する。ビデオデータ生成に関する課題を著しく軽減することにより,高品質なビデオを取得するための効率的かつコスト効率の高いソリューションを提供する。さらに、そのアプリケーションはビデオデータ拡張を超えて、仮想現実、ビデオ編集、その他様々なビデオ中心のアプリケーションにおいて有望な可能性を示している。プロジェクトコードへのアクセスとより高解像度のビデオ結果について、プロジェクトのWebサイトhttps://anythinginanyscene.github.ioを参照してください。

関連論文リスト

WorldExplorer: Towards Generating Fully Navigable 3D Scenes [49.21733308718443]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文参考訳（メタデータ） (2025-06-02T15:41:31Z)
DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models [83.28670336340608]
逆レンダリングとフォワードレンダリングの二重問題に対処するニューラルアプローチであるDiffusionRendererを導入する。本モデルは,リライティング,素材編集,現実的なオブジェクト挿入など,単一のビデオ入力から現実的な応用を可能にする。
論文参考訳（メタデータ） (2025-01-30T18:59:11Z)
TexAVi: Generating Stereoscopic VR Video Clips from Text Descriptions [0.562479170374811]
本稿では,既存の生成システムを融合してテキストから立体視のバーチャルリアリティービデオを作成する手法を提案する。私たちの研究は、バーチャルリアリティーシミュレーションのような分野において自然言語駆動グラフィックスを使うことのエキサイティングな可能性を強調します。
論文参考訳（メタデータ） (2025-01-02T09:21:03Z)
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文参考訳（メタデータ） (2024-09-27T17:59:57Z)
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文参考訳（メタデータ） (2024-08-19T05:15:45Z)
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文参考訳（メタデータ） (2024-06-11T17:19:26Z)
VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文参考訳（メタデータ） (2024-06-05T17:53:55Z)
Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文参考訳（メタデータ） (2024-05-23T17:59:52Z)
DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文参考訳（メタデータ） (2022-11-20T20:57:02Z)
Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文参考訳（メタデータ） (2022-05-03T08:45:22Z)
GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文参考訳（メタデータ） (2021-01-16T23:00:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。