論文の概要: MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion
- arxiv url: http://arxiv.org/abs/2510.13702v1
- Date: Wed, 15 Oct 2025 16:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.752319
- Title: MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion
- Title(参考訳): MVCustom: 幾何学的レイトレンダーレンダリングとコンプリートによる多視点カスタマイズ拡散
- Authors: Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh,
- Abstract要約: 本稿では,複数視点のポーズ制御とカスタマイズを共同で実現することを目的とした,新しいタスクであるマルチビューカスタマイズを提案する。
MVCustomは,多視点の一貫性とカスタマイズの整合性の両方を実現するために設計された,新しい拡散ベースのフレームワークである。
- 参考スコア(独自算出の注目度): 24.513096225720854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view generation with camera pose control and prompt-based customization are both essential elements for achieving controllable generative models. However, existing multi-view generation models do not support customization with geometric consistency, whereas customization models lack explicit viewpoint control, making them challenging to unify. Motivated by these gaps, we introduce a novel task, multi-view customization, which aims to jointly achieve multi-view camera pose control and customization. Due to the scarcity of training data in customization, existing multi-view generation models, which inherently rely on large-scale datasets, struggle to generalize to diverse prompts. To address this, we propose MVCustom, a novel diffusion-based framework explicitly designed to achieve both multi-view consistency and customization fidelity. In the training stage, MVCustom learns the subject's identity and geometry using a feature-field representation, incorporating the text-to-video diffusion backbone enhanced with dense spatio-temporal attention, which leverages temporal coherence for multi-view consistency. In the inference stage, we introduce two novel techniques: depth-aware feature rendering explicitly enforces geometric consistency, and consistent-aware latent completion ensures accurate perspective alignment of the customized subject and surrounding backgrounds. Extensive experiments demonstrate that MVCustom is the only framework that simultaneously achieves faithful multi-view generation and customization.
- Abstract(参考訳): カメラポーズ制御とプロンプトベースのカスタマイズによるマルチビュー生成は、制御可能な生成モデルを実現するための必須要素である。
しかし、既存のマルチビュー生成モデルは幾何整合性によるカスタマイズをサポートしていないが、カスタマイズモデルは明確な視点制御を欠いているため、統一が困難である。
これらのギャップを生かして、マルチビューカメラのポーズ制御とカスタマイズを共同で実現することを目的とした、新しいタスクであるマルチビューカスタマイズを導入する。
カスタマイズにおけるトレーニングデータの不足のため、既存のマルチビュー生成モデルは、本質的に大規模なデータセットに依存しており、多様なプロンプトに一般化するのに苦労している。
そこで本稿では,マルチビューの一貫性とカスタマイズ性の両方を実現するために設計された,新しい拡散ベースのフレームワークであるMVCustomを提案する。
訓練段階において、MVCustomは、多視点整合性のために時間的コヒーレンスを利用する高密度時空間的注意で強化されたテキスト・ビデオ拡散バックボーンを組み込んで、特徴場表現を用いて被験者のアイデンティティと幾何学を学習する。
推論段階では、奥行き認識機能レンダリングは幾何的整合性を明示的に強制し、一貫した潜在補完は、カスタマイズされた被写体と周囲の背景の正確な視線アライメントを保証する。
MVCustomは、忠実なマルチビュー生成とカスタマイズを同時に実現する唯一のフレームワークである。
関連論文リスト
- ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation [24.487453636504707]
マルチインスタンス生成のための新しいDiffusion TransformerフレームワークであるContextGenを紹介する。
ContextGenは、制御精度、アイデンティティの忠実度、全体的な視覚的品質において、既存の手法よりも優れた新しい最先端の手法を設定できることを示します。
論文 参考訳(メタデータ) (2025-10-13T04:21:19Z) - UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward [15.094319754425468]
UMOは,高忠実度ID保存の維持と,拡張性によるアイデンティティの混乱の軽減を目的としたフレームワークである。
UMOはマルチ・ツー・マルチマッチング(multi-to-multi matching)パラダイムを用いて、グローバルな割り当て最適化問題としてマルチアイデンティティ生成を再構成する。
我々は,合成部品と実部品の両方からなるマルチ参照画像を用いたスケーラブルなカスタマイズデータセットを開発した。
論文 参考訳(メタデータ) (2025-09-08T15:54:55Z) - CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design [69.83433430133302]
CreatiDesignは、モデルアーキテクチャとデータセット構築の両方をカバーする、自動グラフィック設計のための体系的なソリューションである。
まず、異種設計要素の柔軟かつ正確な統合を可能にする統合されたマルチ条件駆動アーキテクチャを設計する。
さらに,各条件が指定された画像領域を正確に制御することを保証するため,マルチモーダルアテンションマスク機構を提案する。
論文 参考訳(メタデータ) (2025-05-25T12:14:23Z) - ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning [40.70596166863986]
マルチコンセプトビデオカスタマイズ(MCVC)は依然として大きな課題である。
本稿では,ID分離問題に効果的に対処する新しいフレームワークであるConceptMasterを紹介する。
ビデオのカスタマイズタスクでは,ConceptMasterが従来よりも大幅に優れていたことが示される。
論文 参考訳(メタデータ) (2025-01-08T18:59:01Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。