Fugu-MT 論文翻訳(概要): Sora Generates Videos with Stunning Geometrical Consistency

論文の概要: Sora Generates Videos with Stunning Geometrical Consistency

arxiv url: http://arxiv.org/abs/2402.17403v1
Date: Tue, 27 Feb 2024 10:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 16:44:04.624564
Title: Sora Generates Videos with Stunning Geometrical Consistency
Title（参考訳）: Soraは幾何学的一貫性を損なうビデオを生成する
Authors: Xuanyi Li, Daquan Zhou, Chenxu Zhang, Shaodong Wei, Qibin Hou and Ming-Ming Cheng
Abstract要約: そこで本研究では,実世界の物理原理に則って生成した映像の質を評価する新しいベンチマークを提案する。生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。
参考スコア（独自算出の注目度）: 75.46675626542837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recently developed Sora model [1] has exhibited remarkable capabilities in video generation, sparking intense discussions regarding its ability to simulate real-world phenomena. Despite its growing popularity, there is a lack of established metrics to evaluate its fidelity to real-world physics quantitatively. In this paper, we introduce a new benchmark that assesses the quality of the generated videos based on their adherence to real-world physics principles. We employ a method that transforms the generated videos into 3D models, leveraging the premise that the accuracy of 3D reconstruction is heavily contingent on the video quality. From the perspective of 3D reconstruction, we use the fidelity of the geometric constraints satisfied by the constructed 3D models as a proxy to gauge the extent to which the generated videos conform to real-world physics rules. Project page: https://sora-geometrical-consistency.github.io/
Abstract（参考訳）: 最近開発されたSoraモデル[1]は、ビデオ生成において顕著な能力を示し、実世界の現象をシミュレートする能力に関する激しい議論を引き起こした。人気が高まっているにもかかわらず、実世界の物理学への忠実さを定量的に評価する確立した指標が不足している。本稿では,実世界の物理原理に固執した映像の質を評価するための新しいベンチマークを提案する。生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。 3次元再構成の観点からは,構築した3次元モデルが満足する幾何学的制約の忠実性を用いて,生成した映像が実世界の物理法則に適合する程度を測定する。プロジェクトページ: https://sora-geometrical-consistency.github.io/

関連論文リスト

ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction [22.420752010237052]
本稿では,パラメータ化された3次元物理知識を条件付きビデオ生成モデルに明示的に統合するプラグイン・アンド・プレイフレームワークReVisionを紹介する。 ReVisionは動きの忠実度とコヒーレンスを大幅に向上させる。以上の結果から,3次元物理知識を取り入れることで,比較的小さな映像拡散モデルでも複雑な動きや,より現実性や操作性の高いインタラクションを生成できることが示唆された。
論文参考訳（メタデータ） (2025-04-30T17:59:56Z)
Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [42.581066866708085]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。ビデオ中の物体の形状と動きを規則化し、望ましくない人工物を排除する。
論文参考訳（メタデータ） (2025-02-05T21:49:06Z)
Text-to-3D Gaussian Splatting with Physics-Grounded Motion Generation [47.6666060652434]
正確な外観と幾何学的構造を持つ3次元モデルを生成する革新的なフレームワークを提案する。テキスト・ツー・3D生成と物理基底運動合成を統合することにより,本フレームワークはフォトリアリスティックな3Dオブジェクトを描画する。
論文参考訳（メタデータ） (2024-12-07T06:48:16Z)
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文参考訳（メタデータ） (2024-08-29T17:59:40Z)
What Matters in Detecting AI-Generated Videos like Sora? [51.05034165599385]
合成ビデオと現実世界のビデオのギャップは、まだ未発見のままだ。本研究では,現在最先端のAIモデルであるStable Video Diffusionによって生成された実世界の映像を比較した。我々のモデルは、訓練中にSoraのビデオに露出することなく、Soraが生成した映像を高精度に検出することができる。
論文参考訳（メタデータ） (2024-06-27T23:03:58Z)
VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文参考訳（メタデータ） (2024-06-05T17:53:55Z)
Precise-Physics Driven Text-to-3D Generation [24.180947937863355]
高精度な物理駆動型テキスト・ツー・3D生成法であるPhy3DGenを提案する。生成した3次元形状のソリッド・メカニクスを解析することにより,既存のテキスト・ツー・3次元生成手法が生み出す3次元形状が実世界の応用には実用的でないことを明らかにする。
論文参考訳（メタデータ） (2024-03-19T04:51:38Z)
Towards Live 3D Reconstruction from Wearable Video: An Evaluation of V-SLAM, NeRF, and Videogrammetry Techniques [20.514826446476267]
MR(Mixed Reality)は、戦争の未来を変えることを約束する重要な技術である。この技術を実現するためには,実動センサ観測に基づいて物理的環境の大規模3次元モデルを維持する必要がある。実写映像のみを用いた大規模軍用地図作成のための3次元再構成アルゴリズムについて検討した。
論文参考訳（メタデータ） (2022-11-21T19:57:51Z)
3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文参考訳（メタデータ） (2022-06-29T17:56:03Z)
LASR: Learning Articulated Shape Reconstruction from a Monocular Video [97.92849567637819]
1つのビデオから3d形状を学習するためのテンプレートフリー手法を提案する。本手法は,人間,動物,未知のクラスの映像から,非剛体3D構造を忠実に再構築する。
論文参考訳（メタデータ） (2021-05-06T21:41:11Z)
Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文参考訳（メタデータ） (2020-12-06T07:22:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。