論文の概要: MoCam: Unified Novel View Synthesis via Structured Denoising Dynamics
- arxiv url: http://arxiv.org/abs/2605.12119v1
- Date: Tue, 12 May 2026 13:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.884247
- Title: MoCam: Unified Novel View Synthesis via Structured Denoising Dynamics
- Title(参考訳): MoCam:構造化Denoising Dynamicsによる統一された新しいビュー合成
- Authors: Haofeng Liu, Yang Zhou, Ziheng Wang, Zhengbo Xu, Zhan Peng, Jie Ma, Jun Liang, Shengfeng He, Jing Li,
- Abstract要約: 幾何学的先行は空間的アライメントを提供するが、ビューの変化の下ではスパースになり不正確なものとなる。
既存の手法は、生成を通して幾何学的誤差を伝播させるか、静的に両者を融合させるときに信号の衝突に悩まされる。
幾何から外見への協調的な進行をオーケストレーションするために、構造化されたデノナイジングダイナミクスを利用するMoCamを紹介する。
- 参考スコア(独自算出の注目度): 49.086912769342234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative novel view synthesis faces a fundamental dilemma: geometric priors provide spatial alignment but become sparse and inaccurate under view changes, while appearance priors offer visual fidelity but lack geometric correspondence. Existing methods either propagate geometric errors throughout generation or suffer from signal conflicts when fusing both statically. We introduce MoCam, which employs structured denoising dynamics to orchestrate a coordinated progression from geometry to appearance within the diffusion process.MoCam first leverages geometric priors in early stages to anchor coarse structures and tolerate their incompleteness, then switches to appearance priors in later stages to actively correct geometric errors and refine details. This design naturally unifies static and dynamic view synthesis by temporally decoupling geometric alignment and appearance refinement within the diffusion process.Experiments demonstrate that MoCam significantly outperforms prior methods, particularly when point clouds contain severe holes or distortions, achieving robust geometry-appearance disentanglement.
- Abstract(参考訳): 幾何学的先行は空間的アライメントを提供するが、ビューの変化の下では疎密で不正確になる一方、外観的先行は視覚的忠実さを提供するが幾何学的対応は欠如している。
既存の手法は、生成を通して幾何学的誤差を伝播させるか、静的に両者を融合させるときに信号の衝突に悩まされる。
まず、初期における幾何学的先行を生かして、粗い構造をアンカーし、不完全性を許容し、その後、幾何学的誤りを積極的に修正し詳細を精査する。
この設計は, 拡散過程における幾何アライメントと外観改善を時間的に分離することにより, 静的および動的ビュー合成を自然に統一するものである。
関連論文リスト
- Real-Time Human Frontal View Synthesis from a Single Image [15.31754211648905]
没入型3Dテレプレゼンスを民主化するためには、単一の画像から光現実的なヒューマンビューを合成することが不可欠である。
本研究では,1つの画像から正面視を瞬時に合成するための幾何学誘導フレームワークであるPrismMirrorを提案する。
PrismMirrorは24FPSでリアルタイムな推論を実現する最初の単眼人間の正面視合成モデルである。
論文 参考訳(メタデータ) (2026-03-16T15:39:48Z) - Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文 参考訳(メタデータ) (2025-10-24T16:21:37Z) - 4D Driving Scene Generation With Stereo Forcing [62.47705572424127]
現在の生成モデルは、時間外挿と空間的新規ビュー合成(NVS)をシーンごとの最適化なしで同時にサポートする動的4D駆動シーンの合成に苦慮している。
PhiGenesisは、幾何学的・時間的整合性を持った映像生成技術を拡張する4次元シーン生成のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-09-24T15:37:17Z) - SplitGaussian: Reconstructing Dynamic Scenes via Visual Geometry Decomposition [14.381223353489062]
textbfSplitGaussianは、シーン表現を静的および動的コンポーネントに明示的に分解する新しいフレームワークである。
SplitGaussianは、レンダリング品質、幾何学的安定性、動き分離において、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-06T09:00:13Z) - Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-13T16:19:00Z) - Hamiltonian Dynamics for Real-World Shape Interpolation [66.47407593823208]
我々は3次元形状の古典的問題を再考し、ハミルトン力学に基づく新しい物理的に妥当なアプローチを提案する。
本手法は, 中間形状を正確に保存し, 自己切断を回避し, 高分解能スキャンにスケーラブルである。
論文 参考訳(メタデータ) (2020-04-10T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。