Fugu-MT 論文翻訳(概要): Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach

論文の概要: Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach

arxiv url: http://arxiv.org/abs/2502.03639v1
Date: Wed, 05 Feb 2025 21:49:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.550568
Title: Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach
Title（参考訳）: 映像生成における物理的理解に向けて : 3次元点正規化アプローチ
Authors: Yunuo Chen, Junli Cao, Anil Kag, Vidit Goel, Sergei Korolev, Chenfanfu Jiang, Sergey Tulyakov, Jian Ren,
Abstract要約: 三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。ビデオ中の物体の形状と動きを規則化し、望ましくない人工物を排除する。
参考スコア（独自算出の注目度）: 42.581066866708085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a novel video generation framework that integrates 3-dimensional geometry and dynamic awareness. To achieve this, we augment 2D videos with 3D point trajectories and align them in pixel space. The resulting 3D-aware video dataset, PointVid, is then used to fine-tune a latent diffusion model, enabling it to track 2D objects with 3D Cartesian coordinates. Building on this, we regularize the shape and motion of objects in the video to eliminate undesired artifacts, \eg, nonphysical deformation. Consequently, we enhance the quality of generated RGB videos and alleviate common issues like object morphing, which are prevalent in current video models due to a lack of shape awareness. With our 3D augmentation and regularization, our model is capable of handling contact-rich scenarios such as task-oriented videos. These videos involve complex interactions of solids, where 3D information is essential for perceiving deformation and contact. Furthermore, our model improves the overall quality of video generation by promoting the 3D consistency of moving objects and reducing abrupt changes in shape and motion.
Abstract（参考訳）: 三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用され、3Dカルテシアン座標で2Dオブジェクトを追跡することができる。これに基づいて、ビデオ内の物体の形状と動きを規則化し、望ましくない人工物、すなわち非物理的変形を除去する。その結果、生成したRGBビデオの品質を高め、形状認識の欠如により現在のビデオモデルで普及しているオブジェクトモーフィングのような一般的な問題を緩和する。我々のモデルでは3Dの強化と正規化により、タスク指向ビデオのようなコンタクトリッチなシナリオを処理できる。これらのビデオには固体の複雑な相互作用が含まれており、3D情報は変形や接触の知覚に不可欠である。さらに,移動物体の3次元整合性を促進し,形状や動きの急激な変化を抑えることにより,映像生成の全体的な品質を向上させる。

関連論文リスト

Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos [71.24593306228145]
本研究では,2次元モデルから層状放射場への運動分割予測を融合させることにより,3次元の動的セグメンテーションを改善することを提案する。テスト時間の改善によってこの問題に対処し、モデルが特定のフレームに集中できるようにし、データの複雑さを軽減します。このことは、3D技術が挑戦的で現実的な環境での動的現象に対しても2次元解析を向上できることを証明している。
論文参考訳（メタデータ） (2025-06-05T19:46:48Z)
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction [22.420752010237052]
本稿では,パラメータ化された3次元物理知識を条件付きビデオ生成モデルに明示的に統合するプラグイン・アンド・プレイフレームワークReVisionを紹介する。 ReVisionは動きの忠実度とコヒーレンスを大幅に向上させる。以上の結果から,3次元物理知識を取り入れることで,比較的小さな映像拡散モデルでも複雑な動きや,より現実性や操作性の高いインタラクションを生成できることが示唆された。
論文参考訳（メタデータ） (2025-04-30T17:59:56Z)
PoseTraj: Pose-Aware Trajectory Control in Video Diffusion [17.0187150041712]
本稿では,2次元軌跡から3次元アライメントを生成できるポーズ対応ビデオドラギングモデルPoseTrajを紹介する。提案手法は,新しい2段階のポーズアウェア事前学習フレームワークを採用し,多様な軌跡の3次元理解を改善した。
論文参考訳（メタデータ） (2025-03-20T12:01:43Z)
I2V3D: Controllable image-to-video generation with 3D guidance [42.23117201457898]
IV23Dは、静的画像を正確な3D制御で動的ビデオにアニメーションするためのフレームワークである。提案手法は,コンピュータグラフィックスパイプラインの精度と高度な生成モデルを組み合わせる。
論文参考訳（メタデータ） (2025-03-12T18:26:34Z)
LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文参考訳（メタデータ） (2024-12-12T18:58:42Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
3D-Aware Talking-Head Video Motion Transfer [20.135083791297603]
本稿では3D対応の対話型ビデオモーション転送ネットワークであるHead3Dを提案する。 Head3Dは、2Dの被写体フレームから視覚的に解釈可能な3Dカノニカルヘッドを生成することにより、被写体外観情報を利用する。 Head3Dは2Dと3Dの先行技術より優れています。
論文参考訳（メタデータ） (2023-11-05T02:50:45Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文参考訳（メタデータ） (2023-04-17T13:49:04Z)
3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文参考訳（メタデータ） (2022-06-29T17:56:03Z)
Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文参考訳（メタデータ） (2020-07-07T18:01:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。