論文の概要: Unveiling Spaces: Architecturally meaningful semantic descriptions from
images of interior spaces
- arxiv url: http://arxiv.org/abs/2312.12481v1
- Date: Tue, 19 Dec 2023 16:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:12:12.367096
- Title: Unveiling Spaces: Architecturally meaningful semantic descriptions from
images of interior spaces
- Title(参考訳): 展示空間:内部空間の画像からの建築上有意義な意味記述
- Authors: Demircan Tas, Rohit Priyadarshi Sanatani
- Abstract要約: 本研究の目的は,内部空間の2次元シーンからアーキテクチャ的に意味のある意味記述を抽出することである。
画像から画像への変換のためのGAN(Generative Adversarial Network)は,これらの囲いを合成的に生成した画像に対して,高レベルの構造構造を表す画像抽象化を訓練する。
また,既存の室内囲いの写真にも同様のモデル評価を行い,実環境における性能評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a growing adoption of computer vision tools and technologies
in architectural design workflows over the past decade. Notable use cases
include point cloud generation, visual content analysis, and spatial awareness
for robotic fabrication. Multiple image classification, object detection, and
semantic pixel segmentation models have become popular for the extraction of
high-level symbolic descriptions and semantic content from two-dimensional
images and videos. However, a major challenge in this regard has been the
extraction of high-level architectural structures (walls, floors, ceilings
windows etc.) from diverse imagery where parts of these elements are occluded
by furniture, people, or other non-architectural elements. This project aims to
tackle this problem by proposing models that are capable of extracting
architecturally meaningful semantic descriptions from two-dimensional scenes of
populated interior spaces. 1000 virtual classrooms are parametrically
generated, randomized along key spatial parameters such as length, width,
height, and door/window positions. The positions of cameras, and
non-architectural visual obstructions (furniture/objects) are also randomized.
A Generative Adversarial Network (GAN) for image-to-image translation (Pix2Pix)
is trained on synthetically generated rendered images of these enclosures,
along with corresponding image abstractions representing high-level
architectural structure. The model is then tested on unseen synthetic imagery
of new enclosures, and outputs are compared to ground truth using pixel-wise
comparison for evaluation. A similar model evaluation is also carried out on
photographs of existing indoor enclosures, to measure its performance in
real-world settings.
- Abstract(参考訳): 過去10年間、アーキテクチャ設計ワークフローにおけるコンピュータビジョンツールや技術の採用が増えている。
注目すべきユースケースは、ポイントクラウド生成、ビジュアルコンテンツ分析、ロボット製作のための空間認識などだ。
二次元画像や映像から高レベルな記号記述と意味コンテンツを抽出するために,複数の画像分類,物体検出,意味画素分割モデルが普及している。
しかし、この点において大きな課題は、家具、人、その他の非建築要素によってこれらの要素の一部が隠蔽されている多様なイメージから高層建築構造(壁、床、天井窓など)を抽出することであった。
本研究の目的は、内部空間の2次元シーンからアーキテクチャ的に意味のある意味記述を抽出できるモデルを提案することである。
1000の仮想教室はパラメトリック生成され、長さ、幅、高さ、ドア/ウインドウ位置などの重要な空間パラメータに沿ってランダム化される。
カメラの位置や非構造的視覚障害(家具/オブジェクト)もランダム化される。
画像から画像への変換のためのGAN(Generative Adversarial Network)は,これらの囲いを合成的に生成した画像に対して,高レベルの構造構造を表す画像抽象化を訓練する。
このモデルは、新しい囲いの目に見えない合成画像でテストされ、出力はピクセル単位で比較して評価される。
また,既存の室内囲いの写真にも同様のモデル評価を行い,実環境における性能評価を行った。
関連論文リスト
- Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections [19.05215193265488]
本稿では,大規模ランドマークを描写したシーンのニューラル表現と,シーン内の意味領域を記述したテキストを結合するローカライズシステムを提案する。
我々のアプローチは、宇宙空間に物理的に接地した画像が、新しい概念をローカライズするための強力な監視信号を提供するという前提に基づいている。
以上の結果から,HaLo-NeRFはアーキテクチャのランドマークに関連するさまざまな意味概念を正確にローカライズできることがわかった。
論文 参考訳(メタデータ) (2024-02-14T14:02:04Z) - Hand-Object Interaction Image Generation [135.87707468156057]
この仕事は、新しいタスク、すなわち手動オブジェクトのインタラクション画像生成に特化している。
与えられた手、オブジェクト、それらの相互作用状態の下で、条件付きハンドオブジェクト画像を生成することを目的としている。
このタスクは、AR/VRゲームやオンラインショッピングなど、多くの潜在的なアプリケーションシナリオにおいて、挑戦的で研究に値するものだ。
論文 参考訳(メタデータ) (2022-11-28T18:59:57Z) - Dual Pyramid Generative Adversarial Networks for Semantic Image
Synthesis [94.76988562653845]
セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。
しかし、現在の最先端のアプローチは、さまざまなスケールで画像で現実的なオブジェクトを生成するのに依然として苦労している。
本研究では,空間適応型正規化ブロックの条件付けを各スケールで同時に学習するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。
論文 参考訳(メタデータ) (2022-10-08T18:45:44Z) - Neural Scene Decoration from a Single Photograph [24.794743085391953]
本稿では,生成モデルを用いた領域固有の画像合成の新しい問題,すなわちニューラルシーンの装飾を導入する。
空の屋内空間の写真が与えられた場合、我々は、完全に装飾された同じ空間の新たなイメージを合成することを目的としている。
我々のネットワークには、初期点ベースのオブジェクトレイアウトをリアルな写真に変換する新しい画像生成装置が含まれている。
論文 参考訳(メタデータ) (2021-08-04T01:44:21Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z) - Shallow2Deep: Indoor Scene Modeling by Single Image Understanding [42.87957414916607]
本稿では,ニューラルネットワークの深い特徴を用いた屋内シーンの自動モデリング手法を提案する。
一つのRGB画像が与えられた場合,本手法は同時に意味内容,3次元幾何学,オブジェクト関係を復元する。
論文 参考訳(メタデータ) (2020-02-22T23:27:22Z) - Seeing the World in a Bag of Chips [73.561388215585]
ハンドヘルドRGBDセンサによる新しいビュー合成と環境再構築の二重問題に対処する。
提案するコントリビューションは,1)高スペクトル物体のモデリング,2)反射間およびフレネル効果のモデリング,3)形状のみを再構築するために必要な同じ入力で表面光場再構成を可能にすることを含む。
論文 参考訳(メタデータ) (2020-01-14T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。