論文の概要: What Does Stable Diffusion Know about the 3D Scene?
- arxiv url: http://arxiv.org/abs/2310.06836v2
- Date: Mon, 4 Mar 2024 11:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 02:07:40.243021
- Title: What Does Stable Diffusion Know about the 3D Scene?
- Title(参考訳): 安定拡散は3Dシーンについて何を知っているのか?
- Authors: Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman
- Abstract要約: 本稿では,市販拡散モデルの特徴が3Dシーンの物理的「プロパティ」を符号化するかどうかを評価するプロトコルを提案する。
このプロトコルは、シーン幾何学、シーン素材、サポート関係、照明、ビュー依存度をカバーしているプロパティに適用する。
安定拡散の特徴は, シーン幾何学, サポート関係, 影, 奥行きなど, 様々な特性の識別学習に有効であるが, 閉塞や物質に対する性能は低い。
- 参考スコア(独自算出の注目度): 92.36449676571237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative models like Stable Diffusion enable the
generation of highly photo-realistic images. Our objective in this paper is to
probe the diffusion network to determine to what extent it 'understands'
different properties of the 3D scene depicted in an image. To this end, we make
the following contributions: (i) We introduce a protocol to evaluate whether
features of an off-the-shelf diffusion model encode a number of physical
'properties' of the 3D scene, by training discriminative classifiers on the
features for these properties. The probes are applied on datasets of real
images with annotations for the property. (ii) We apply this protocol to
properties covering scene geometry, scene material, support relations,
lighting, and view dependent measures. (iii) We find that features from Stable
Diffusion are good for discriminative learning of a number of properties,
including scene geometry, support relations, shadows and depth, but less
performant for occlusion and material. (iv) We also apply the probes to other
networks trained at large-scale, including DINO, CLIP and VQGAN, and find that
DINOv2 has a similar performance to Stable Diffusion, while outperforming
DINOv1, CLIP and VQGAN.
- Abstract(参考訳): 安定拡散のような生成モデルの最近の進歩は、高光写実画像の生成を可能にする。
本研究の目的は,拡散ネットワークを探索し,画像中の3次元シーンの異なる特性をどの程度「理解」するかを判断することである。
この目的のために、以下の貢献をしている。
(i)これらの特性の特徴について識別分類器を訓練することにより,市販の拡散モデルの特徴が3dシーンの物理的な「プロペラティティ」をコードしているかを評価するプロトコルを提案する。
プローブはプロパティのアノテーションを備えた実際のイメージのデータセットに適用される。
(ii)このプロトコルをシーン幾何学,シーン素材,サポート関係,照明,ビュー依存測度を含む特性に適用する。
(iii) 安定拡散の特徴は, シーン形状, 支持関係, 影, 奥行きなど, 様々な特性の識別学習に適しているが, 咬合や材料の性能は低下している。
また,DINOv1,CLIP,VQGANなどの大規模ネットワークにもプローブを適用し,DINOv2は安定拡散と同様の性能を示し,DINOv1,CLIP,VQGANよりも優れていた。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Beyond Surface Statistics: Scene Representations in a Latent Diffusion
Model [52.634378583311054]
潜在拡散モデル(LDM)は現実的な画像を生成するが、これらのモデルの内部構造は謎のままである。
本研究では, LDMは単純なシーン幾何学の内部表現を作成し, 利用するのかという, 基本的な解釈可能性の問題について考察する。
線形プローブを用いて,LDMの内部活性化が3次元深度データの線形表現と,有向物体/背景像の線形表現を符号化していることを示す。
論文 参考訳(メタデータ) (2023-06-09T07:34:34Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - DiffuScene: Denoising Diffusion Models for Generative Indoor Scene
Synthesis [44.521452102413534]
拡散モデルに基づく屋内3次元シーン合成のためのDiffuSceneを提案する。
非順序オブジェクトセットに格納された3Dインスタンスプロパティを生成し、各オブジェクト設定に最もよく似た幾何学を検索する。
論文 参考訳(メタデータ) (2023-03-24T18:00:15Z) - SALAD: Part-Level Latent Diffusion for 3D Shape Generation and
Manipulation [10.478729083130366]
部分レベルの暗黙的3次元表現に基づくカスケード拡散モデルを提案する。
提案モデルでは,最先端の生成品質を実現し,条件付き設定での付加的なトレーニングを伴わずに,部分レベルの形状の編集と操作が可能となる。
論文 参考訳(メタデータ) (2023-03-21T23:43:58Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - 3D Point Cloud Feature Explanations Using Gradient-Based Methods [11.355723874379317]
我々は、3Dデータを扱うために画像データに作用することが示されているサリエンシ手法を拡張した。
3Dデータは本質的に疎いという洞察に基づいて、ボクセルベースの分類ネットワークによって学習された特徴を可視化する。
以上の結果から,Voxception-ResNetモデルではパラメータの5%まで精度を損なうことが可能であることが示唆された。
論文 参考訳(メタデータ) (2020-06-09T23:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。