論文の概要: View-Consistent Diffusion Representations for 3D-Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2511.18991v1
- Date: Mon, 24 Nov 2025 11:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.172357
- Title: View-Consistent Diffusion Representations for 3D-Consistent Video Generation
- Title(参考訳): 3次元連続映像生成のためのビュー一貫性拡散表現
- Authors: Duolikun Danier, Ge Gao, Steven McDonagh, Changjian Li, Hakan Bilen, Oisin Mac Aodha,
- Abstract要約: 現在生成されているビデオには、3Dの不整合による視覚的アーティファクトが含まれている。
マルチビューで一貫した拡散表現を学習することで,ビデオモデルの3次元一貫性を改善するための新しいアプローチであるViCoDRを提案する。
- 参考スコア(独自算出の注目度): 60.68052293389281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation models have made significant progress in generating realistic content, enabling applications in simulation, gaming, and film making. However, current generated videos still contain visual artifacts arising from 3D inconsistencies, e.g., objects and structures deforming under changes in camera pose, which can undermine user experience and simulation fidelity. Motivated by recent findings on representation alignment for diffusion models, we hypothesize that improving the multi-view consistency of video diffusion representations will yield more 3D-consistent video generation. Through detailed analysis on multiple recent camera-controlled video diffusion models we reveal strong correlations between 3D-consistent representations and videos. We also propose ViCoDR, a new approach for improving the 3D consistency of video models by learning multi-view consistent diffusion representations. We evaluate ViCoDR on camera controlled image-to-video, text-to-video, and multi-view generation models, demonstrating significant improvements in the 3D consistency of the generated videos. Project page: https://danier97.github.io/ViCoDR.
- Abstract(参考訳): 映像生成モデルは現実的なコンテンツを生成し、シミュレーション、ゲーム、映画製作の応用を可能にした。
しかし、現在のビデオには3Dの不整合、例えば、カメラのポーズの変化によって変形するオブジェクトや構造などの視覚的アーティファクトが含まれているため、ユーザー体験やシミュレーションの忠実さを損なう可能性がある。
拡散モデルの表示アライメントに関する最近の知見に触発されて,映像拡散表現の多視点整合性を改善することで,より3D一貫性のある映像生成が得られるという仮説を立てた。
近年の複数のカメラ制御ビデオ拡散モデルに関する詳細な解析により,3次元連続表現と映像との強い相関関係が明らかになった。
また,マルチビューで一貫した拡散表現を学習することで,映像モデルの3次元整合性を改善する新しい手法であるViCoDRを提案する。
カメラ制御画像,テキスト・ツー・ビデオ,マルチビュー生成モデル上でのViCoDRの評価を行い,生成した映像の3次元一貫性を著しく改善した。
プロジェクトページ: https://danier97.github.io/ViCoDR
関連論文リスト
- MV-Performer: Taming Video Diffusion Model for Faithful and Synchronized Multi-view Performer Synthesis [34.793258395288895]
モノクロフルボディキャプチャーから新しいビュービデオを作成するための革新的なフレームワークであるMV-Performerを提案する。
360度合成を実現するために、MVHumanNetデータセットを広範囲に活用し、情報伝達条件信号を取り込む。
生成したビデオの同期を維持するために,多視点の人間中心ビデオ拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-10-08T16:24:22Z) - ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction [22.420752010237052]
本稿では,パラメータ化された3次元物理知識を条件付きビデオ生成モデルに明示的に統合するプラグイン・アンド・プレイフレームワークReVisionを紹介する。
ReVisionは動きの忠実度とコヒーレンスを大幅に向上させる。
以上の結果から,3次元物理知識を取り入れることで,比較的小さな映像拡散モデルでも複雑な動きや,より現実性や操作性の高いインタラクションを生成できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T17:59:56Z) - Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [54.559847511280545]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
論文 参考訳(メタデータ) (2025-02-05T21:49:06Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文 参考訳(メタデータ) (2024-07-24T17:59:43Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。