Fugu-MT 論文翻訳(概要): SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

論文の概要: SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

arxiv url: http://arxiv.org/abs/2407.00367v1
Date: Sat, 29 Jun 2024 08:33:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 03:35:30.622182
Title: SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix
Title（参考訳）: SVG: Denoising Frame Matrixによる立体映像生成
Authors: Peng Dai, Feitong Tan, Qiangeng Xu, David Futschik, Ruofei Du, Sean Fanello, Xiaojuan Qi, Yinda Zhang,
Abstract要約: 本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
参考スコア（独自算出の注目度）: 60.48666051245761
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video generation models have demonstrated great capabilities of producing impressive monocular videos, however, the generation of 3D stereoscopic video remains under-explored. We propose a pose-free and training-free approach for generating 3D stereoscopic videos using an off-the-shelf monocular video generation model. Our method warps a generated monocular video into camera views on stereoscopic baseline using estimated video depth, and employs a novel frame matrix video inpainting framework. The framework leverages the video generation model to inpaint frames observed from different timestamps and views. This effective approach generates consistent and semantically coherent stereoscopic videos without scene optimization or model fine-tuning. Moreover, we develop a disocclusion boundary re-injection scheme that further improves the quality of video inpainting by alleviating the negative effects propagated from disoccluded areas in the latent space. We validate the efficacy of our proposed method by conducting experiments on videos from various generative models, including Sora [4 ], Lumiere [2], WALT [8 ], and Zeroscope [ 42]. The experiments demonstrate that our method has a significant improvement over previous methods. The code will be released at \url{https://daipengwa.github.io/SVG_ProjectPage}.
Abstract（参考訳）: ビデオ生成モデルは、印象的なモノクロビデオを生成する素晴らしい能力を示してきたが、3Dステレオビデオの生成は未調査のままである。市販単眼ビデオ生成モデルを用いて3次元立体映像を生成するためのポーズフリーでトレーニング不要な手法を提案する。提案手法では, ビデオ深度推定による立体視ベースライン上のカメラビューにモノクロ映像をワープし, フレームマトリックス映像の塗布フレームワークを用いる。このフレームワークは、ビデオ生成モデルを利用して、異なるタイムスタンプやビューから観察されたフレームをインペイントする。この効果的なアプローチは、シーン最適化やモデル微調整なしで一貫したセマンティック・コヒーレントなステレオビデオを生成する。さらに,非閉塞領域から伝播する負の効果を緩和することにより,映像の塗装品質を向上する,非閉塞境界再注入方式を開発した。提案手法の有効性を,Sora [4 ], Lumiere [2], WALT [8 ], Zeroscope [42] など,様々な生成モデルを用いた実験により検証した。実験により,本手法は従来の手法よりも大幅に改善されていることが示された。コードは \url{https://daipengwa.github.io/SVG_ProjectPage} でリリースされる。

関連論文リスト

Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文参考訳（メタデータ） (2026-01-02T13:04:47Z)
View-Consistent Diffusion Representations for 3D-Consistent Video Generation [60.68052293389281]
現在生成されているビデオには、3Dの不整合による視覚的アーティファクトが含まれている。マルチビューで一貫した拡散表現を学習することで,ビデオモデルの3次元一貫性を改善するための新しいアプローチであるViCoDRを提案する。
論文参考訳（メタデータ） (2025-11-24T11:16:55Z)
S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.060882467801484]
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文参考訳（メタデータ） (2025-08-11T14:50:03Z)
Restereo: Diffusion stereo video generation and restoration [43.208256051997616]
ステレオビデオを生成するだけでなく、左ビデオと右ビデオの両方を1つのモデルで一貫した拡張を行う新しいパイプラインを導入する。本手法は,比較的小さなステレオビデオデータセットを用いて微調整し,高品質な実世界のビデオに適用することができる。
論文参考訳（メタデータ） (2025-06-06T12:14:24Z)
PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization [3.53658451351123]
本稿では,ニューラルレンダリングのためのデータ拡張手法としてビデオフレームを提案する。 PS4PROは様々なビデオデータセットに基づいて訓練されており、暗黙的にカメラの動きと現実世界の3D幾何学をモデル化している。以上の結果から,静的シーンと動的シーンの両方における再構成性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-05-28T17:35:39Z)
IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos [33.12653115668027]
本手法は,幾何整合性を保証する多面体画像(MPI)を生成する。提案手法は, 1 つのデノナイジングプロセスを通じて, 最終的な出力を直接生成する。単眼ビデオから効果的に学習するために、ターゲットまたは基準カメラ空間で出力MPIをランダムに再構成するトレーニング機構を導入する。
論文参考訳（メタデータ） (2025-04-27T08:56:02Z)
I2V3D: Controllable image-to-video generation with 3D guidance [42.23117201457898]
IV23Dは、静的画像を正確な3D制御で動的ビデオにアニメーションするためのフレームワークである。提案手法は,コンピュータグラフィックスパイプラインの精度と高度な生成モデルを組み合わせる。
論文参考訳（メタデータ） (2025-03-12T18:26:34Z)
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。カメラの動き、物体の動き、照明方向を同時に制御できる。高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文参考訳（メタデータ） (2025-02-11T13:11:59Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文参考訳（メタデータ） (2024-12-05T07:32:20Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2024-09-11T17:52:07Z)
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文参考訳（メタデータ） (2024-09-03T16:53:19Z)
Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文参考訳（メタデータ） (2024-08-10T08:09:57Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。 58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文参考訳（メタデータ） (2024-06-04T17:57:37Z)
Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。 HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文参考訳（メタデータ） (2024-02-21T11:46:16Z)
VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文参考訳（メタデータ） (2024-02-20T16:39:23Z)
Video Autoencoder: self-supervised disentanglement of static 3D structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文参考訳（メタデータ） (2021-10-06T17:57:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。