論文の概要: Viewpoint Textual Inversion: Discovering Scene Representations and 3D View Control in 2D Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.07986v2
- Date: Fri, 26 Jul 2024 11:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 18:41:36.613138
- Title: Viewpoint Textual Inversion: Discovering Scene Representations and 3D View Control in 2D Diffusion Models
- Title(参考訳): 視点テキストインバージョン:2次元拡散モデルにおけるシーン表現と3次元ビュー制御の発見
- Authors: James Burgess, Kuan-Chieh Wang, Serena Yeung-Levy,
- Abstract要約: 安定拡散のようなモデルのテキスト埋め込み空間において,特定の3次元シーン表現が符号化されていることを示す。
我々は,3次元視覚タスク,すなわちビュー制御されたテキスト・ツー・イメージ生成,および単一画像からの新規なビュー合成に3次元シーン表現を利用する。
- 参考スコア(独自算出の注目度): 4.036372578802888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models generate impressive and realistic images, but do they learn to represent the 3D world from only 2D supervision? We demonstrate that yes, certain 3D scene representations are encoded in the text embedding space of models like Stable Diffusion. Our approach, Viewpoint Neural Textual Inversion (ViewNeTI), is to discover 3D view tokens; these tokens control the 3D viewpoint - the rendering pose in a scene - of generated images. Specifically, we train a small neural mapper to take continuous camera viewpoint parameters and predict a view token (a word embedding). This token conditions diffusion generation via cross-attention to produce images with the desired camera viewpoint. Using ViewNeTI as an evaluation tool, we report two findings: first, the text latent space has a continuous view-control manifold for particular 3D scenes; second, we find evidence for a generalized view-control manifold for all scenes. We conclude that since the view token controls the 3D `rendering' viewpoint, there is likely a scene representation embedded in frozen 2D diffusion models. Finally, we exploit the 3D scene representations for 3D vision tasks, namely, view-controlled text-to-image generation, and novel view synthesis from a single image, where our approach sets state-of-the-art for LPIPS. Code available at https://github.com/jmhb0/view_neti
- Abstract(参考訳): テキストと画像の拡散モデルは印象的でリアルな画像を生成しますが、彼らは2Dの監督だけで3Dの世界を表現することを学んでいますか?
安定拡散(Stable Diffusion)のようなモデルのテキスト埋め込み空間に,ある3次元シーン表現がエンコードされていることを実証する。
ビューポイント・ニューラルテクスチュアル・インバージョン(ViewNeTI)は、3次元ビュートークンを発見することを目的としており、これらのトークンは生成された画像の3次元ビューポイント(シーン内のレンダリングポーズ)を制御する。
具体的には、小さなニューラルマッパーを訓練し、連続したカメラ視点パラメータを抽出し、ビュートークン(単語埋め込み)を予測する。
このトークンは、クロスアテンションによる拡散生成を条件とし、所望のカメラ視点で画像を生成する。
評価ツールとしてViewNeTIを用いて,テキストラテント空間は特定の3次元シーンに対して連続的なビュー制御多様体を持ち,また,すべてのシーンに対して一般化されたビュー制御多様体が存在することを示す。
ビュートークンが3D `rendering' の視点を制御しているため,凍結した2次元拡散モデルに埋め込まれたシーン表現が存在する可能性が示唆された。
最後に,3次元視覚タスク,すなわちビュー制御されたテキスト・ツー・イメージ生成のための3次元シーン表現と,単一画像からの新規ビュー合成を利用する。
https://github.com/jmhb0/view_neti
関連論文リスト
- Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。