論文の概要: Sora Generates Videos with Stunning Geometrical Consistency
- arxiv url: http://arxiv.org/abs/2402.17403v1
- Date: Tue, 27 Feb 2024 10:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:44:04.624564
- Title: Sora Generates Videos with Stunning Geometrical Consistency
- Title(参考訳): Soraは幾何学的一貫性を損なうビデオを生成する
- Authors: Xuanyi Li, Daquan Zhou, Chenxu Zhang, Shaodong Wei, Qibin Hou and
Ming-Ming Cheng
- Abstract要約: そこで本研究では,実世界の物理原理に則って生成した映像の質を評価する新しいベンチマークを提案する。
生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。
- 参考スコア(独自算出の注目度): 75.46675626542837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently developed Sora model [1] has exhibited remarkable capabilities
in video generation, sparking intense discussions regarding its ability to
simulate real-world phenomena. Despite its growing popularity, there is a lack
of established metrics to evaluate its fidelity to real-world physics
quantitatively. In this paper, we introduce a new benchmark that assesses the
quality of the generated videos based on their adherence to real-world physics
principles. We employ a method that transforms the generated videos into 3D
models, leveraging the premise that the accuracy of 3D reconstruction is
heavily contingent on the video quality. From the perspective of 3D
reconstruction, we use the fidelity of the geometric constraints satisfied by
the constructed 3D models as a proxy to gauge the extent to which the generated
videos conform to real-world physics rules. Project page:
https://sora-geometrical-consistency.github.io/
- Abstract(参考訳): 最近開発されたSoraモデル[1]は、ビデオ生成において顕著な能力を示し、実世界の現象をシミュレートする能力に関する激しい議論を引き起こした。
人気が高まっているにもかかわらず、実世界の物理学への忠実さを定量的に評価する確立した指標が不足している。
本稿では,実世界の物理原理に固執した映像の質を評価するための新しいベンチマークを提案する。
生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。
3次元再構成の観点からは,構築した3次元モデルが満足する幾何学的制約の忠実性を用いて,生成した映像が実世界の物理法則に適合する程度を測定する。
プロジェクトページ: https://sora-geometrical-consistency.github.io/
関連論文リスト
- Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [42.581066866708085]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
ビデオ中の物体の形状と動きを規則化し、望ましくない人工物を排除する。
論文 参考訳(メタデータ) (2025-02-05T21:49:06Z) - Text-to-3D Gaussian Splatting with Physics-Grounded Motion Generation [47.6666060652434]
正確な外観と幾何学的構造を持つ3次元モデルを生成する革新的なフレームワークを提案する。
テキスト・ツー・3D生成と物理基底運動合成を統合することにより,本フレームワークはフォトリアリスティックな3Dオブジェクトを描画する。
論文 参考訳(メタデータ) (2024-12-07T06:48:16Z) - ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。
提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。
この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-08-29T17:59:40Z) - What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。
本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。
我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文 参考訳(メタデータ) (2024-06-27T23:03:58Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - 3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。
神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-29T17:56:03Z) - LASR: Learning Articulated Shape Reconstruction from a Monocular Video [97.92849567637819]
1つのビデオから3d形状を学習するためのテンプレートフリー手法を提案する。
本手法は,人間,動物,未知のクラスの映像から,非剛体3D構造を忠実に再構築する。
論文 参考訳(メタデータ) (2021-05-06T21:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。