論文の概要: Multi-View Unsupervised Image Generation with Cross Attention Guidance
- arxiv url: http://arxiv.org/abs/2312.04337v1
- Date: Thu, 7 Dec 2023 14:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:45:07.483088
- Title: Multi-View Unsupervised Image Generation with Cross Attention Guidance
- Title(参考訳): クロスアテンション誘導による多視点教師なし画像生成
- Authors: Llukman Cerkezi, Aram Davtyan, Sepehr Sameni, Paolo Favaro
- Abstract要約: 本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
- 参考スコア(独自算出の注目度): 23.07929124170851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing interest in novel view synthesis, driven by Neural Radiance Field
(NeRF) models, is hindered by scalability issues due to their reliance on
precisely annotated multi-view images. Recent models address this by
fine-tuning large text2image diffusion models on synthetic multi-view data.
Despite robust zero-shot generalization, they may need post-processing and can
face quality issues due to the synthetic-real domain gap. This paper introduces
a novel pipeline for unsupervised training of a pose-conditioned diffusion
model on single-category datasets. With the help of pretrained self-supervised
Vision Transformers (DINOv2), we identify object poses by clustering the
dataset through comparing visibility and locations of specific object parts.
The pose-conditioned diffusion model, trained on pose labels, and equipped with
cross-frame attention at inference time ensures cross-view consistency, that is
further aided by our novel hard-attention guidance. Our model, MIRAGE,
surpasses prior work in novel view synthesis on real images. Furthermore,
MIRAGE is robust to diverse textures and geometries, as demonstrated with our
experiments on synthetic images generated with pretrained Stable Diffusion.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)モデルによる新しいビュー合成への関心は、正確に注釈付けされたマルチビュー画像に依存するため、スケーラビリティの問題によって妨げられている。
最近のモデルでは、合成マルチビューデータ上で大きなテキスト2画像拡散モデルを微調整することでこの問題に対処している。
堅牢なゼロショットの一般化にもかかわらず、後処理が必要であり、合成ドメインのギャップのために品質の問題に直面する可能性がある。
本稿では,単一カテゴリデータセット上のポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
事前学習された自己教師付き視覚トランスフォーマ(dinov2)の助けを借りて、特定のオブジェクト部分の可視性と位置を比較してデータセットをクラスタリングすることで、オブジェクトのポーズを識別する。
ポーズ条件付き拡散モデルでは、ポーズラベルに基づいて訓練され、推論時にクロスフレームアテンションを備えることにより、クロスビュー一貫性が保証される。
我々のモデルであるmirageは、実画像における新しいビュー合成の先行研究を上回っている。
さらに,MIRAGEは種々のテクスチャやジオメトリーに対して頑健であり,予め訓練した安定拡散による合成画像について実験を行った。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Improving Few-shot Image Generation by Structural Discrimination and
Textural Modulation [10.389698647141296]
画像生成の目的は、このカテゴリからいくつかの画像が与えられた場合、あるカテゴリに対して可塑性で多様な画像を生成することである。
既存のアプローチでは、異なる画像をグローバルに補間するか、事前に定義された係数で局所表現を融合する。
本稿では,内部局所表現に外部意味信号を注入する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:10:21Z) - Consistent View Synthesis with Pose-Guided Diffusion Models [51.37925069307313]
単一の画像から新しいビューを合成することは、多くのバーチャルリアリティーアプリケーションにとって画期的な問題である。
本稿では,ポーズ誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:22Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。
我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。
また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文 参考訳(メタデータ) (2023-03-20T02:40:16Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models [33.69732363040526]
本稿では,歴史キャプションや生成画像に自動条件付き遅延拡散モデルAR-LDMを提案する。
これは、コヒーレントなビジュアルストーリー合成のための拡散モデルの利用に成功している最初の作品である。
論文 参考訳(メタデータ) (2022-11-20T11:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。