論文の概要: LoomNet: Enhancing Multi-View Image Generation via Latent Space Weaving
- arxiv url: http://arxiv.org/abs/2507.05499v1
- Date: Mon, 07 Jul 2025 21:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.35613
- Title: LoomNet: Enhancing Multi-View Image Generation via Latent Space Weaving
- Title(参考訳): LoomNet: 遅延スペースウィービングによるマルチビュー画像生成の強化
- Authors: Giulio Federico, Fabio Carrara, Claudio Gennaro, Giuseppe Amato, Marco Di Benedetto,
- Abstract要約: LoomNetは複数回同じ拡散モデルを適用してコヒーレントな画像を生成する新しい多視点拡散アーキテクチャである。
実験では、LoomNetは画像の品質と再現のメトリクスの両方において最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 7.999454304974351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating consistent multi-view images from a single image remains challenging. Lack of spatial consistency often degrades 3D mesh quality in surface reconstruction. To address this, we propose LoomNet, a novel multi-view diffusion architecture that produces coherent images by applying the same diffusion model multiple times in parallel to collaboratively build and leverage a shared latent space for view consistency. Each viewpoint-specific inference generates an encoding representing its own hypothesis of the novel view from a given camera pose, which is projected onto three orthogonal planes. For each plane, encodings from all views are fused into a single aggregated plane. These aggregated planes are then processed to propagate information and interpolate missing regions, combining the hypotheses into a unified, coherent interpretation. The final latent space is then used to render consistent multi-view images. LoomNet generates 16 high-quality and coherent views in just 15 seconds. In our experiments, LoomNet outperforms state-of-the-art methods on both image quality and reconstruction metrics, also showing creativity by producing diverse, plausible novel views from the same input.
- Abstract(参考訳): 単一の画像から一貫したマルチビュー画像を生成することは依然として困難である。
空間一貫性の欠如は、表面再構成において3Dメッシュの品質を低下させる。
そこで本研究では,同じ拡散モデルを複数回並列に適用し,協調的に協調的に構築・活用し,コヒーレントな画像を生成する,新しい多視点拡散アーキテクチャであるLoomNetを提案する。
各視点固有推論は、3つの直交平面に投影された所定のカメラポーズから、新規ビューの独自の仮説を表す符号化を生成する。
各平面に対して、すべてのビューからのエンコーディングは単一の集約された平面に融合される。
これらの集約された平面は情報を伝達し、行方不明な領域を補間し、仮説を統一された一貫性のある解釈に組み合わせる。
最後の潜在空間は、一貫性のあるマルチビュー画像のレンダリングに使用される。
LoomNetは、わずか15秒で16の高品質でコヒーレントなビューを生成する。
我々の実験では、LoomNetは画像の品質と再現の指標の両方において最先端の手法よりも優れており、同時に同じ入力から多種多様な、もっともらしい新しいビューを創出することで創造性を示している。
関連論文リスト
- VistaDream: Sampling multiview consistent images for single-view scene reconstruction [63.991582576387856]
VistaDreamは、単一のビューイメージから3Dシーンを再構築するフレームワークである。
近年の拡散モデルでは、単一ビューの入力画像から高品質のノベルビュー画像を生成することができる。
論文 参考訳(メタデータ) (2024-10-22T10:55:59Z) - Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。
隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。
物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文 参考訳(メタデータ) (2024-08-23T15:16:01Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - SyncDreamer: Generating Multiview-consistent Images from a Single-view Image [59.75474518708409]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。
実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-07T02:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。