論文の概要: What Does Stable Diffusion Know about the 3D Scene?
- arxiv url: http://arxiv.org/abs/2310.06836v1
- Date: Tue, 10 Oct 2023 17:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:16:54.291871
- Title: What Does Stable Diffusion Know about the 3D Scene?
- Title(参考訳): 安定拡散は3Dシーンについて何を知っているのか?
- Authors: Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman
- Abstract要約: 本稿では,ネットワークが3Dシーンの物理的な「プロパティ」をモデル化するかどうかを評価するプロトコルを提案する。
このプロトコルは、シーン幾何学、シーン素材、サポート関係、照明、ビュー依存度をカバーしているプロパティに適用する。
安定拡散はシーン幾何学,サポート関係,影,奥行きなど,多くの特性に優れるが,閉塞に対する性能は低い。
- 参考スコア(独自算出の注目度): 92.36449676571237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative models like Stable Diffusion enable the
generation of highly photo-realistic images. Our objective in this paper is to
probe the diffusion network to determine to what extent it 'understands'
different properties of the 3D scene depicted in an image. To this end, we make
the following contributions: (i) We introduce a protocol to evaluate whether a
network models a number of physical 'properties' of the 3D scene by probing for
explicit features that represent these properties. The probes are applied on
datasets of real images with annotations for the property. (ii) We apply this
protocol to properties covering scene geometry, scene material, support
relations, lighting, and view dependent measures. (iii) We find that Stable
Diffusion is good at a number of properties including scene geometry, support
relations, shadows and depth, but less performant for occlusion. (iv) We also
apply the probes to other models trained at large-scale, including DINO and
CLIP, and find their performance inferior to that of Stable Diffusion.
- Abstract(参考訳): 安定拡散のような生成モデルの最近の進歩は、高光写実画像の生成を可能にする。
本研究の目的は,拡散ネットワークを探索し,画像中の3次元シーンの異なる特性をどの程度「理解」するかを判断することである。
この目的のために、以下の貢献をしている。
i)これらの特性を表す明示的な特徴を探索することにより,ネットワークが3Dシーンの物理的な「プロパティ」を多数モデル化するかどうかを評価するプロトコルを導入する。
プローブはプロパティのアノテーションを備えた実際のイメージのデータセットに適用される。
(ii)このプロトコルをシーン幾何学,シーン素材,サポート関係,照明,ビュー依存測度を含む特性に適用する。
(iii) 安定拡散は, 場面形状, 支持関係, 影, 深さなど多くの特性に優れるが, 咬合性能は低下する。
(iv)ダイノやクリップなど,大規模に訓練された他のモデルにもプローブを応用し,安定拡散よりも性能が劣ることがわかった。
関連論文リスト
- MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets [63.284244910964475]
本稿では,2次元のセマンティクスから基礎となる物質を推定する3次元アセット素材生成フレームワークを提案する。
このような先行モデルに基づいて,材料を三次元空間で解析する機構を考案する。
論文 参考訳(メタデータ) (2024-04-22T07:00:17Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Beyond Surface Statistics: Scene Representations in a Latent Diffusion
Model [52.634378583311054]
潜在拡散モデル(LDM)は現実的な画像を生成するが、これらのモデルの内部構造は謎のままである。
本研究では, LDMは単純なシーン幾何学の内部表現を作成し, 利用するのかという, 基本的な解釈可能性の問題について考察する。
線形プローブを用いて,LDMの内部活性化が3次元深度データの線形表現と,有向物体/背景像の線形表現を符号化していることを示す。
論文 参考訳(メタデータ) (2023-06-09T07:34:34Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - DiffuScene: Denoising Diffusion Models for Generative Indoor Scene
Synthesis [44.521452102413534]
拡散モデルに基づく屋内3次元シーン合成のためのDiffuSceneを提案する。
非順序オブジェクトセットに格納された3Dインスタンスプロパティを生成し、各オブジェクト設定に最もよく似た幾何学を検索する。
論文 参考訳(メタデータ) (2023-03-24T18:00:15Z) - SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation [11.828311976126301]
部分レベルの暗黙的3次元表現に基づくカスケード拡散モデルを提案する。
提案モデルでは,最先端の生成品質を実現し,条件付き設定での付加的なトレーニングを伴わずに,部分レベルの形状の編集と操作が可能となる。
論文 参考訳(メタデータ) (2023-03-21T23:43:58Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - 3D Point Cloud Feature Explanations Using Gradient-Based Methods [11.355723874379317]
我々は、3Dデータを扱うために画像データに作用することが示されているサリエンシ手法を拡張した。
3Dデータは本質的に疎いという洞察に基づいて、ボクセルベースの分類ネットワークによって学習された特徴を可視化する。
以上の結果から,Voxception-ResNetモデルではパラメータの5%まで精度を損なうことが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-06-09T23:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。