論文の概要: 4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion
- arxiv url: http://arxiv.org/abs/2412.04462v1
- Date: Thu, 05 Dec 2024 18:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:23.847870
- Title: 4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion
- Title(参考訳): 4Real-Video: 一般的な写真リアリスティックな4Dビデオ拡散を学習する
- Authors: Chaoyang Wang, Peiye Zhuang, Tuan Duc Ngo, Willi Menapace, Aliaksandr Siarohin, Michael Vasilkovsky, Ivan Skorokhodov, Sergey Tulyakov, Peter Wonka, Hsin-Ying Lee,
- Abstract要約: 時間軸と視点軸の両方でビデオフレームのグリッドとして整理された4Dビデオを生成するためのフレームワークである4Real-Videoを提案する。
このグリッドでは、各行は、同じタイムステップを共有するフレームを含み、各列は、同じ視点からフレームを含む。
- 参考スコア(独自算出の注目度): 81.01195935381062
- License:
- Abstract: We propose 4Real-Video, a novel framework for generating 4D videos, organized as a grid of video frames with both time and viewpoint axes. In this grid, each row contains frames sharing the same timestep, while each column contains frames from the same viewpoint. We propose a novel two-stream architecture. One stream performs viewpoint updates on columns, and the other stream performs temporal updates on rows. After each diffusion transformer layer, a synchronization layer exchanges information between the two token streams. We propose two implementations of the synchronization layer, using either hard or soft synchronization. This feedforward architecture improves upon previous work in three ways: higher inference speed, enhanced visual quality (measured by FVD, CLIP, and VideoScore), and improved temporal and viewpoint consistency (measured by VideoScore and Dust3R-Confidence).
- Abstract(参考訳): 時間軸と視点軸の両方でビデオフレームのグリッドとして構成された,4次元ビデオを生成するための新しいフレームワークである4Real-Videoを提案する。
このグリッドでは、各行は、同じタイムステップを共有するフレームを含み、各列は、同じ視点からフレームを含む。
本稿では,新しい2ストリームアーキテクチャを提案する。
1つのストリームはカラムの視点更新を実行し、もう1つのストリームは行の時間更新を実行する。
各拡散変圧器層の後、同期層は2つのトークンストリーム間で情報を交換する。
本稿では,ハード同期とソフト同期のどちらかを用いて,同期層の2つの実装を提案する。
このフィードフォワードアーキテクチャは、推論速度の向上、視覚的品質の向上(FVD、CLIP、VideoScoreで測定)、時間的および視点的一貫性の向上(VideoScoreとDust3R-Confidenceで測定)の3つの方法で、以前の作業を改善する。
関連論文リスト
- MVTokenFlow: High-quality 4D Content Generation using Multiview Token Flow [15.155484662231508]
モノクロビデオから高品質な4Dコンテンツを作成するためのMVTokenFlowを提案する。
マルチビュー拡散モデルを用いて、異なる時間ステップでマルチビュー画像を生成する。
MVTokenFlowはさらに、レンダリングされた2Dフローをガイダンスとして、すべてのマルチビュー画像を再生する。
論文 参考訳(メタデータ) (2025-02-17T11:34:58Z) - Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - DrivingDiffusion: Layout-Guided multi-view driving scene video
generation with latent diffusion model [19.288610627281102]
3次元レイアウトで制御されたリアルなマルチビュービデオを生成するために、DrivingDiffusionを提案する。
我々のモデルは複雑な都市のシーンで大規模でリアルなマルチカメラ駆動ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-11T18:00:08Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - W-Cell-Net: Multi-frame Interpolation of Cellular Microscopy Videos [1.7205106391379026]
蛍光顕微鏡タイムラプス映画の時間分解能を高めるため,近年のディープ・ビデオ・コンボリューションを応用した。
我々の知る限り、2つの連続した顕微鏡画像間のフレームを生成するために、CNN(Conal Neural Networks)を用いた以前の研究はない。
論文 参考訳(メタデータ) (2020-05-14T01:33:38Z) - 4D Association Graph for Realtime Multi-person Motion Capture Using
Multiple Video Cameras [46.664422061537564]
本稿では,マルチビュー映像入力を用いた新しいリアルタイム多対人モーションキャプチャーアルゴリズムを提案する。
ビューパース、クロスビューマッチング、時間トラッキングを単一の最適化フレームワークに統合します。
提案手法はノイズ検出に頑健であり,高品質なオンラインポーズ復元品質を実現する。
論文 参考訳(メタデータ) (2020-02-28T09:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。