論文の概要: Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach
- arxiv url: http://arxiv.org/abs/2502.03639v1
- Date: Wed, 05 Feb 2025 21:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:47.526017
- Title: Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach
- Title(参考訳): 映像生成における物理的理解に向けて : 3次元点正規化アプローチ
- Authors: Yunuo Chen, Junli Cao, Anil Kag, Vidit Goel, Sergei Korolev, Chenfanfu Jiang, Sergey Tulyakov, Jian Ren,
- Abstract要約: 三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
ビデオ中の物体の形状と動きを規則化し、望ましくない人工物を排除する。
- 参考スコア(独自算出の注目度): 42.581066866708085
- License:
- Abstract: We present a novel video generation framework that integrates 3-dimensional geometry and dynamic awareness. To achieve this, we augment 2D videos with 3D point trajectories and align them in pixel space. The resulting 3D-aware video dataset, PointVid, is then used to fine-tune a latent diffusion model, enabling it to track 2D objects with 3D Cartesian coordinates. Building on this, we regularize the shape and motion of objects in the video to eliminate undesired artifacts, \eg, nonphysical deformation. Consequently, we enhance the quality of generated RGB videos and alleviate common issues like object morphing, which are prevalent in current video models due to a lack of shape awareness. With our 3D augmentation and regularization, our model is capable of handling contact-rich scenarios such as task-oriented videos. These videos involve complex interactions of solids, where 3D information is essential for perceiving deformation and contact. Furthermore, our model improves the overall quality of video generation by promoting the 3D consistency of moving objects and reducing abrupt changes in shape and motion.
- Abstract(参考訳): 三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用され、3Dカルテシアン座標で2Dオブジェクトを追跡することができる。
これに基づいて、ビデオ内の物体の形状と動きを規則化し、望ましくない人工物、すなわち非物理的変形を除去する。
その結果、生成したRGBビデオの品質を高め、形状認識の欠如により現在のビデオモデルで普及しているオブジェクトモーフィングのような一般的な問題を緩和する。
我々のモデルでは3Dの強化と正規化により、タスク指向ビデオのようなコンタクトリッチなシナリオを処理できる。
これらのビデオには固体の複雑な相互作用が含まれており、3D情報は変形や接触の知覚に不可欠である。
さらに,移動物体の3次元整合性を促進し,形状や動きの急激な変化を抑えることにより,映像生成の全体的な品質を向上させる。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - 3D-Aware Talking-Head Video Motion Transfer [20.135083791297603]
本稿では3D対応の対話型ビデオモーション転送ネットワークであるHead3Dを提案する。
Head3Dは、2Dの被写体フレームから視覚的に解釈可能な3Dカノニカルヘッドを生成することにより、被写体外観情報を利用する。
Head3Dは2Dと3Dの先行技術より優れています。
論文 参考訳(メタデータ) (2023-11-05T02:50:45Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。
異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。
本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文 参考訳(メタデータ) (2023-04-17T13:49:04Z) - 3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。
神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文 参考訳(メタデータ) (2022-06-29T17:56:03Z) - Shape from Blur: Recovering Textured 3D Shape and Motion of Fast Moving
Objects [115.71874459429381]
本研究では, 物体の3次元形状, テクスチャ, 動きを単一動画像から共同で再構成する新しい課題について述べる。
従来の手法では2次元画像領域でのみ遅延問題に対処するが、3次元領域における全ての物体特性の厳密なモデリングは任意の物体の動きの正確な記述を可能にする。
論文 参考訳(メタデータ) (2021-06-16T13:18:08Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。