論文の概要: Consistent123: Improve Consistency for One Image to 3D Object Synthesis
- arxiv url: http://arxiv.org/abs/2310.08092v1
- Date: Thu, 12 Oct 2023 07:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:31:09.076190
- Title: Consistent123: Improve Consistency for One Image to 3D Object Synthesis
- Title(参考訳): Consistent123: 1画像から3Dオブジェクト合成への一貫性向上
- Authors: Haohan Weng, Tianyu Yang, Jianan Wang, Yu Li, Tong Zhang, C. L. Philip
Chen, Lei Zhang
- Abstract要約: 大規模な画像拡散モデルは、高品質で優れたゼロショット機能を備えた新規なビュー合成を可能にする。
これらのモデルは、ビュー一貫性の保証がなく、3D再構成や画像から3D生成といった下流タスクのパフォーマンスが制限される。
本稿では,新しい視点を同時に合成するConsistent123を提案する。
- 参考スコア(独自算出の注目度): 74.1094516222327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large image diffusion models enable novel view synthesis with high quality
and excellent zero-shot capability. However, such models based on
image-to-image translation have no guarantee of view consistency, limiting the
performance for downstream tasks like 3D reconstruction and image-to-3D
generation. To empower consistency, we propose Consistent123 to synthesize
novel views simultaneously by incorporating additional cross-view attention
layers and the shared self-attention mechanism. The proposed attention
mechanism improves the interaction across all synthesized views, as well as the
alignment between the condition view and novel views. In the sampling stage,
such architecture supports simultaneously generating an arbitrary number of
views while training at a fixed length. We also introduce a progressive
classifier-free guidance strategy to achieve the trade-off between texture and
geometry for synthesized object views. Qualitative and quantitative experiments
show that Consistent123 outperforms baselines in view consistency by a large
margin. Furthermore, we demonstrate a significant improvement of Consistent123
on varying downstream tasks, showing its great potential in the 3D generation
field. The project page is available at consistent-123.github.io.
- Abstract(参考訳): 大きな画像拡散モデルは、高品質で優れたゼロショット能力を持つ新しいビュー合成を可能にする。
しかし、画像から画像への変換に基づくそのようなモデルは、ビューの一貫性を保証せず、3D再構成や画像から3D生成といった下流タスクのパフォーマンスを制限している。
一貫性を高めるために,新たなビューを合成するためのconsent123を提案し,クロスビューアテンション層と共有自己アテンション機構を併用した。
提案したアテンション機構は,すべての合成ビュー間の相互作用を改善するとともに,条件ビューと新規ビューとの整合性も向上する。
サンプリング段階では、一定の長さでトレーニングしながら任意の数のビューを同時に生成する。
また,合成オブジェクトビューのテクスチャと幾何のトレードオフを実現するために,プログレッシブ分類器フリーな誘導手法を提案する。
定性的かつ定量的な実験により、Consistent123はビューの一貫性において大きなマージンでベースラインを上回ります。
さらに、下流の様々なタスクにおけるConsistent123の大幅な改善を示し、3次元生成分野におけるその大きな可能性を示した。
プロジェクトページはconsist-123.github.ioで利用可能である。
関連論文リスト
- ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。
隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。
物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文 参考訳(メタデータ) (2024-08-23T15:16:01Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Zero-to-Hero: Enhancing Zero-Shot Novel View Synthesis via Attention Map Filtering [16.382098950820822]
我々は、注目マップを操作することでビュー合成を強化する新しいテストタイムアプローチであるZero-to-Heroを提案する。
我々は、ソースビューからの情報を統合するために自己認識機構を変更し、形状歪みを低減する。
結果は、分散オブジェクトの多様なセットで検証された、忠実性と一貫性の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-05-29T00:58:22Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - SyncDreamer: Generating Multiview-consistent Images from a Single-view Image [59.75474518708409]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。
実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-07T02:28:04Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。