論文の概要: CLIP-Layout: Style-Consistent Indoor Scene Synthesis with Semantic
Furniture Embedding
- arxiv url: http://arxiv.org/abs/2303.03565v2
- Date: Fri, 2 Jun 2023 04:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 19:48:29.636796
- Title: CLIP-Layout: Style-Consistent Indoor Scene Synthesis with Semantic
Furniture Embedding
- Title(参考訳): CLIP-Layout:Semantic Furniture Embeddingを用いたスタイル一貫性のある室内シーン合成
- Authors: Jingyu Liu, Wenhan Xiong, Ian Jones, Yixin Nie, Anchit Gupta, Barlas
O\u{g}uz
- Abstract要約: 室内シーンの合成は、家具をフロアプランに適切にピックして配置する。
本稿では,インスタンスレベルの予測を出力できる自動回帰シーンモデルを提案する。
我々のモデルはシーン合成におけるSOTAの結果を達成し、自動補完の指標を50%以上改善する。
- 参考スコア(独自算出の注目度): 17.053844262654223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indoor scene synthesis involves automatically picking and placing furniture
appropriately on a floor plan, so that the scene looks realistic and is
functionally plausible. Such scenes can serve as homes for immersive 3D
experiences, or be used to train embodied agents. Existing methods for this
task rely on labeled categories of furniture, e.g. bed, chair or table, to
generate contextually relevant combinations of furniture. Whether heuristic or
learned, these methods ignore instance-level visual attributes of objects, and
as a result may produce visually less coherent scenes. In this paper, we
introduce an auto-regressive scene model which can output instance-level
predictions, using general purpose image embedding based on CLIP. This allows
us to learn visual correspondences such as matching color and style, and
produce more functionally plausible and aesthetically pleasing scenes.
Evaluated on the 3D-FRONT dataset, our model achieves SOTA results in scene
synthesis and improves auto-completion metrics by over 50%. Moreover, our
embedding-based approach enables zero-shot text-guided scene synthesis and
editing, which easily generalizes to furniture not seen during training.
- Abstract(参考訳): 室内シーンの合成は、家具をフロアプランに適切にピックして配置するので、シーンがリアルに見え、機能的にも妥当である。
このようなシーンは、没入的な3D体験のための家として機能したり、エンボディエージェントの訓練に使用することができる。
既存の手法では家具のラベル付きカテゴリ(ベッド、椅子、テーブルなど)に依存し、家具の文脈的関連の組み合わせを生成する。
ヒューリスティックでも学習でも、これらの手法はオブジェクトのインスタンスレベルの視覚的属性を無視し、結果として視覚的に一貫性の低いシーンを生み出す。
本稿では,CLIPに基づく汎用画像埋め込みを用いて,インスタンスレベルの予測を出力できる自動回帰シーンモデルを提案する。
これにより、色やスタイルの一致などの視覚的対応を学習し、より機能的に可視で美的な場面を作り出すことができる。
3d-frontデータセット上で評価し,シーン合成によるsoma結果を達成し,自動補完メトリクスを50%以上改善した。
さらに, 組込み方式により, ゼロショットテキスト誘導シーン合成と編集が可能となり, トレーニング中に見えない家具に容易に一般化できる。
関連論文リスト
- The Scene Language: Representing Scenes with Programs, Words, and Embeddings [23.707974056165042]
本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。
シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。
論文 参考訳(メタデータ) (2024-10-22T07:40:20Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - 3D scene generation from scene graphs and self-attention [51.49886604454926]
本稿では,シーングラフとフロアプランから3次元シーンを合成する条件付き変分オートエンコーダ(cVAE)モデルを提案する。
我々は、シーン内のオブジェクト間の高レベルな関係をキャプチャするために、自己注意層の特性を利用する。
論文 参考訳(メタデータ) (2024-04-02T12:26:17Z) - Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning [24.162598399141785]
Scene-LLMは3次元視覚言語モデルであり、インタラクティブな3次元屋内環境におけるエンボディエージェントの能力を高める。
Scene-LLMを用いた実験は, 密接なキャプション, 質問応答, 対話型プランニングにおいて, 強力な機能を示す。
論文 参考訳(メタデータ) (2024-03-18T01:18:48Z) - Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects [84.45345829270626]
制御可能な3D屋内シーン合成は、技術進歩の最前線にある。
シーンスタイリングの現在の手法は、シーン全体にスタイルを適用することに限定されている。
室内3Dシーンを合成するためのユニークなパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-24T03:10:36Z) - RoomDesigner: Encoding Anchor-latents for Style-consistent and
Shape-compatible Indoor Scene Generation [26.906174238830474]
室内シーン生成は、空間的に合理的なレイアウトで形状に整合したスタイルの家具配置を作成することを目的としている。
家具をアンカーラテント表現としてエンコードすることで,形状先行を室内シーン生成に組み込む2段階モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T03:05:19Z) - Adjustable Visual Appearance for Generalizable Novel View Synthesis [12.901033240320725]
一般化可能な新規ビュー合成法を提案する。
これにより、観測されたシーンの視覚的な外観を変更でき、レンダリングされたビューがターゲットの天気や照明条件にマッチする。
提案手法は,事前訓練された一般化可能な変圧器アーキテクチャに基づいて,合成されたシーンを微調整する。
論文 参考訳(メタデータ) (2023-06-02T08:17:04Z) - Control-NeRF: Editable Feature Volumes for Scene Rendering and
Manipulation [58.16911861917018]
高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現するための新しい手法を提案する。
モデルペアはシーンに依存しないニューラルネットワークを用いてシーン固有の特徴ボリュームを学習する。
我々は、シーンの混合、オブジェクトの変形、シーンへのオブジェクト挿入など、さまざまなシーン操作を実証すると同時に、写真リアリスティックな結果も生成する。
論文 参考訳(メタデータ) (2022-04-22T17:57:00Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - ATISS: Autoregressive Transformers for Indoor Scene Synthesis [112.63708524926689]
我々は,合成室内環境を構築するための新しい自己回帰型トランスフォーマーアーキテクチャであるATISSを紹介する。
この定式化は、ATISSが完全に自動的な部屋レイアウト合成を超えて一般的に有用になるため、より自然なものであると我々は主張する。
本モデルは,ラベル付き3Dバウンディングボックスのみを監督として,自動回帰生成モデルとしてエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-10-07T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。