論文の概要: SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting
- arxiv url: http://arxiv.org/abs/2510.26796v1
- Date: Thu, 30 Oct 2025 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.975461
- Title: SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting
- Title(参考訳): SEE4D: 自動回帰ビデオインペインティングによるPse-Free 4D生成
- Authors: Dongyue Lu, Ao Liang, Tianxin Huang, Xiao Fu, Yuyang Zhao, Baorui Ma, Liang Pan, Wei Yin, Lingdong Kong, Wei Tsang Ooi, Ziwei Liu,
- Abstract要約: SEE4Dは, カジュアルビデオから4次元世界モデリングを行うための, ポーズのないトラジェクトリ・ツー・カメラ・フレームワークである。
モデル内のビュー条件ビデオは、現実的に合成された画像を認知する前に、ロバストな幾何学を学ぶために訓練される。
クロスビュービデオ生成とスパース再構成のベンチマークでSee4Dを検証した。
- 参考スコア(独自算出の注目度): 83.5106058182799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Immersive applications call for synthesizing spatiotemporal 4D content from casual videos without costly 3D supervision. Existing video-to-4D methods typically rely on manually annotated camera poses, which are labor-intensive and brittle for in-the-wild footage. Recent warp-then-inpaint approaches mitigate the need for pose labels by warping input frames along a novel camera trajectory and using an inpainting model to fill missing regions, thereby depicting the 4D scene from diverse viewpoints. However, this trajectory-to-trajectory formulation often entangles camera motion with scene dynamics and complicates both modeling and inference. We introduce SEE4D, a pose-free, trajectory-to-camera framework that replaces explicit trajectory prediction with rendering to a bank of fixed virtual cameras, thereby separating camera control from scene modeling. A view-conditional video inpainting model is trained to learn a robust geometry prior by denoising realistically synthesized warped images and to inpaint occluded or missing regions across virtual viewpoints, eliminating the need for explicit 3D annotations. Building on this inpainting core, we design a spatiotemporal autoregressive inference pipeline that traverses virtual-camera splines and extends videos with overlapping windows, enabling coherent generation at bounded per-step complexity. We validate See4D on cross-view video generation and sparse reconstruction benchmarks. Across quantitative metrics and qualitative assessments, our method achieves superior generalization and improved performance relative to pose- or trajectory-conditioned baselines, advancing practical 4D world modeling from casual videos.
- Abstract(参考訳): 没入型アプリケーションは、高価な3D監督なしでカジュアルビデオから時空間4Dコンテンツを合成することを要求する。
既存のビデオから4Dの方法は、手動でアノテートされたカメラのポーズに頼っている。
近年のワープ・テン・インペント・アプローチは、新しいカメラ軌道に沿って入力フレームをワープし、塗装モデルを用いて不足領域を埋めることにより、様々な視点から4Dシーンを描写することで、ポーズラベルの必要性を緩和している。
しかし、この軌跡と軌跡の定式化はしばしばシーンダイナミクスとカメラの動きを絡み合わせ、モデリングと推論の両方を複雑にする。
SEE4Dはポーズレスのトラジェクトリ・トゥ・カメラ・フレームワークで、固定された仮想カメラのバンクに描画によって明示的なトラジェクトリ予測を置き換え、シーンモデリングからカメラ制御を分離する。
リアルに合成された歪んだイメージをデノイングし、仮想的な視点で隠蔽された領域や欠落した領域を塗布し、明示的な3Dアノテーションを不要にすることで、より堅牢な幾何学を学ぶために、ビューコンディショナルなビデオインペイントモデルが訓練される。
この塗装コアをベースとして,仮想カメラのスプラインを横切る時空間自己回帰推論パイプラインを設計し,重なり合うウィンドウでビデオを拡張し,ステップ単位の制約付きでコヒーレントな生成を可能にする。
クロスビュービデオ生成とスパース再構成のベンチマークでSee4Dを検証した。
定量的な測度と質的評価を総合して,提案手法はポーズ条件や軌道条件によるベースラインに対して,より優れた一般化と性能向上を実現し,カジュアルビデオからの実用的な4次元世界モデリングを推し進める。
関連論文リスト
- C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - PaintScene4D: Consistent 4D Scene Generation from Text Prompts [29.075849524496707]
PaintScene4Dは、新しいテキストから4Dのシーン生成フレームワークである。
さまざまな現実世界のデータセットでトレーニングされたビデオ生成モデルを活用する。
任意の軌道から見ることができるリアルな4Dシーンを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:59:57Z) - Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。
4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。