Fugu-MT 論文翻訳(概要): What Does Stable Diffusion Know about the 3D Scene?

論文の概要: What Does Stable Diffusion Know about the 3D Scene?

arxiv url: http://arxiv.org/abs/2310.06836v2
Date: Mon, 4 Mar 2024 11:25:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 02:07:40.243021
Title: What Does Stable Diffusion Know about the 3D Scene?
Title（参考訳）: 安定拡散は3Dシーンについて何を知っているのか?
Authors: Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman
Abstract要約: 本稿では,市販拡散モデルの特徴が3Dシーンの物理的「プロパティ」を符号化するかどうかを評価するプロトコルを提案する。このプロトコルは、シーン幾何学、シーン素材、サポート関係、照明、ビュー依存度をカバーしているプロパティに適用する。安定拡散の特徴は, シーン幾何学, サポート関係, 影, 奥行きなど, 様々な特性の識別学習に有効であるが, 閉塞や物質に対する性能は低い。
参考スコア（独自算出の注目度）: 92.36449676571237
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in generative models like Stable Diffusion enable the generation of highly photo-realistic images. Our objective in this paper is to probe the diffusion network to determine to what extent it 'understands' different properties of the 3D scene depicted in an image. To this end, we make the following contributions: (i) We introduce a protocol to evaluate whether features of an off-the-shelf diffusion model encode a number of physical 'properties' of the 3D scene, by training discriminative classifiers on the features for these properties. The probes are applied on datasets of real images with annotations for the property. (ii) We apply this protocol to properties covering scene geometry, scene material, support relations, lighting, and view dependent measures. (iii) We find that features from Stable Diffusion are good for discriminative learning of a number of properties, including scene geometry, support relations, shadows and depth, but less performant for occlusion and material. (iv) We also apply the probes to other networks trained at large-scale, including DINO, CLIP and VQGAN, and find that DINOv2 has a similar performance to Stable Diffusion, while outperforming DINOv1, CLIP and VQGAN.
Abstract（参考訳）: 安定拡散のような生成モデルの最近の進歩は、高光写実画像の生成を可能にする。本研究の目的は,拡散ネットワークを探索し,画像中の3次元シーンの異なる特性をどの程度「理解」するかを判断することである。この目的のために、以下の貢献をしている。 (i)これらの特性の特徴について識別分類器を訓練することにより,市販の拡散モデルの特徴が3dシーンの物理的な「プロペラティティ」をコードしているかを評価するプロトコルを提案する。プローブはプロパティのアノテーションを備えた実際のイメージのデータセットに適用される。 (ii)このプロトコルをシーン幾何学,シーン素材,サポート関係,照明,ビュー依存測度を含む特性に適用する。 (iii) 安定拡散の特徴は, シーン形状, 支持関係, 影, 奥行きなど, 様々な特性の識別学習に適しているが, 咬合や材料の性能は低下している。また,DINOv1,CLIP,VQGANなどの大規模ネットワークにもプローブを適用し,DINOv2は安定拡散と同様の性能を示し,DINOv1,CLIP,VQGANよりも優れていた。

関連論文リスト

Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [4.196626042312499]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文参考訳（メタデータ） (2025-06-17T07:04:07Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
Vision-based 3D Semantic Scene Completion via Capture Dynamic Representations [37.61183525419993]
動的表現のキャプチャによる視覚に基づくロバストなセマンティックなシーンコンプリートを提案する。マルチモーダルな大規模モデルを用いて2次元的意味論を抽出し,それらを3次元空間に整列させる。シーン情報を動的・静的な特徴に分離するために,単眼・立体的深度の特徴を利用する。
論文参考訳（メタデータ） (2025-03-08T13:49:43Z)
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。 IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文参考訳（メタデータ） (2024-12-16T18:52:56Z)
Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding [41.59673370285659]
本稿では,3次元シーン理解のための様々な視覚符号化モデルを探索する総合的研究について述べる。評価は,映像ベース,映像ベース,3Dファウンデーションモデルを含む,7つのビジョンファウンデーションエンコーダにまたがる。 DINOv2は優れた性能を示し、ビデオモデルはオブジェクトレベルのタスクに優れ、幾何学的拡散モデルはタスクに有益であり、言語予測モデルは言語関連のタスクに予期せぬ制限を示す。
論文参考訳（メタデータ） (2024-09-05T17:59:56Z)
N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2024-03-16T18:50:44Z)
Regulating Intermediate 3D Features for Vision-Centric Autonomous Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。 Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文参考訳（メタデータ） (2023-12-19T04:09:05Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
Parametric Depth Based Feature Representation Learning for Object Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文参考訳（メタデータ） (2023-07-09T06:07:22Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文参考訳（メタデータ） (2020-10-08T14:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。