論文の概要: ViewMask-1-to-3: Multi-View Consistent Image Generation via Multimodal Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.14099v1
- Date: Tue, 16 Dec 2025 05:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.601679
- Title: ViewMask-1-to-3: Multi-View Consistent Image Generation via Multimodal Diffusion Models
- Title(参考訳): ViewMask-1-to-3:マルチモーダル拡散モデルによるマルチビュー一貫性画像生成
- Authors: Ruishu Zhu, Zhihao Huang, Jiacheng Sun, Ping Luo, Hongyuan Zhang, Xuelong Li,
- Abstract要約: 多視点画像生成に離散拡散モデルを適用する先駆的アプローチであるViewMask-1-to-3を導入する。
マスク付きトークン予測により言語と視覚を統一することにより,多視点の進行的生成を可能にする。
提案手法は,PSNR,SSIM,LPIPSを用いて,GSOおよび3D-FUTUREデータセットの平均値にランク付けする。
- 参考スコア(独自算出の注目度): 70.28556518166037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view image generation from a single image and text description remains challenging due to the difficulty of maintaining geometric consistency across different viewpoints. Existing approaches typically rely on 3D-aware architectures or specialized diffusion models that require extensive multi-view training data and complex geometric priors. In this work, we introduce ViewMask-1-to-3, a pioneering approach to apply discrete diffusion models to multi-view image generation. Unlike continuous diffusion methods that operate in latent spaces, ViewMask-1-to-3 formulates multi-view synthesis as a discrete sequence modeling problem, where each viewpoint is represented as visual tokens obtained through MAGVIT-v2 tokenization. By unifying language and vision through masked token prediction, our approach enables progressive generation of multiple viewpoints through iterative token unmasking with text input. ViewMask-1-to-3 achieves cross-view consistency through simple random masking combined with self-attention, eliminating the requirement for complex 3D geometric constraints or specialized attention architectures. Our approach demonstrates that discrete diffusion provides a viable and simple alternative to existing multi-view generation methods, ranking first on average across GSO and 3D-FUTURE datasets in terms of PSNR, SSIM, and LPIPS, while maintaining architectural simplicity.
- Abstract(参考訳): 異なる視点における幾何的整合性を維持することの難しさから, 単一画像からの多視点画像生成とテキスト記述はいまだに困難である。
既存のアプローチは一般的に3D対応アーキテクチャや、多視点トレーニングデータと複雑な幾何学的先行データを必要とする専門的な拡散モデルに依存している。
本研究では,多視点画像生成に離散拡散モデルを適用する先駆的アプローチであるViewMask-1-to-3を紹介する。
遅延空間で動作する連続拡散法とは異なり、ViewMask-1-to-3は離散シーケンスモデリング問題として多視点合成を定式化し、それぞれの視点はMAGVIT-v2トークン化によって得られる視覚トークンとして表現される。
マスク付きトークン予測による言語と視覚の統一により,テキスト入力による反復的トークンアンマキングによる複数視点の進行的生成が可能となる。
ViewMask-1-to-3は、単純なランダムマスキングと自己アテンションを組み合わせることで、複雑な3D幾何学的制約や特別な注意アーキテクチャの要求をなくし、ビュー間の一貫性を実現する。
提案手法は,PSNR,SSIM,LPIPSの観点から,GSOおよび3D-FUTUREデータセットの平均的なランク付けを行い,アーキテクチャの単純さを保ちながら,既存のマルチビュー生成手法に対して,離散拡散が実現可能かつ簡単な代替手段を提供することを示す。
関連論文リスト
- FROMAT: Multiview Material Appearance Transfer via Few-Shot Self-Attention Adaptation [49.74776147964999]
マルチビュー拡散モデルにおける外観伝達のための軽量適応手法を提案する。
提案手法では,入力画像からオブジェクトの同一性と,参照画像に描画された外見の手がかりとを組み合わせ,マルチビュー一貫性のある出力を生成する。
論文 参考訳(メタデータ) (2025-12-10T13:06:40Z) - CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation [59.257513664564996]
テキストプロンプトや画像から360度パノラマを生成する新しい手法を提案する。
我々は多視点拡散モデルを用いて立方体の6つの面を合成する。
本モデルでは,テキストのきめ細かい制御,高解像度パノラマ画像の生成,トレーニングセットを越えた一般化を実現している。
論文 参考訳(メタデータ) (2025-01-28T18:59:49Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。