論文の概要: WAFFLE: Multimodal Floorplan Understanding in the Wild
- arxiv url: http://arxiv.org/abs/2412.00955v2
- Date: Tue, 03 Dec 2024 18:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 11:47:10.262731
- Title: WAFFLE: Multimodal Floorplan Understanding in the Wild
- Title(参考訳): WAFFLE: 野生でのマルチモーダル・フロアプラン理解
- Authors: Keren Ganon, Morris Alper, Rachel Mikulinsky, Hadar Averbuch-Elor,
- Abstract要約: WAFFLEは20K近いフロアプラン画像と、さまざまなビルディングタイプ、場所、データフォーマットにまたがるインターネットデータから算出されたメタデータからなる、新しいデータセットである。
WAFFLEは,従来のデータセットでは実現不可能な,識別的および生成的の両方において,新たなビルディング理解タスクの進行を可能にすることを示す。
WAFFLEをコードとトレーニングされたモデルとともに公開し、研究コミュニティに建物のセマンティクスを学ぶための新しい基盤を提供する。
- 参考スコア(独自算出の注目度): 10.832723844562887
- License:
- Abstract: Buildings are a central feature of human culture and are increasingly being analyzed with computational methods. However, recent works on computational building understanding have largely focused on natural imagery of buildings, neglecting the fundamental element defining a building's structure -- its floorplan. Conversely, existing works on floorplan understanding are extremely limited in scope, often focusing on floorplans of a single semantic category and region (e.g. floorplans of apartments from a single country). In this work, we introduce WAFFLE, a novel multimodal floorplan understanding dataset of nearly 20K floorplan images and metadata curated from Internet data spanning diverse building types, locations, and data formats. By using a large language model and multimodal foundation models, we curate and extract semantic information from these images and their accompanying noisy metadata. We show that WAFFLE enables progress on new building understanding tasks, both discriminative and generative, which were not feasible using prior datasets. We will publicly release WAFFLE along with our code and trained models, providing the research community with a new foundation for learning the semantics of buildings.
- Abstract(参考訳): 建物は人間の文化の中心的な特徴であり、ますます計算手法で分析されている。
しかし、近年の計算的建物の理解に関する研究は、建物の構造を定義する基本的な要素であるフロアプランを無視して、建物の自然なイメージに主に焦点を当てている。
逆に、フロアプラン理解に関する既存の研究はスコープが極端に限られており、しばしば単一の意味圏と地域(例えば、一つの国のアパートのフロアプラン)のフロアプランに焦点を当てている。
本研究では,多種多様な建築タイプ,場所,データ形式にまたがるインターネットデータから得られた20K近いフロアプラン画像とメタデータからなる,新しいマルチモーダルフロアプラン理解データセットWAFFLEを紹介する。
大規模言語モデルとマルチモーダル基礎モデルを用いて,これらの画像とその付随するノイズメタデータから意味情報をキュレートし,抽出する。
WAFFLEは,従来のデータセットでは実現不可能な,識別的および生成的の両方において,新たなビルディング理解タスクの進行を可能にすることを示す。
WAFFLEをコードとトレーニングされたモデルとともに公開し、研究コミュニティに建物のセマンティクスを学ぶための新しい基盤を提供する。
関連論文リスト
- MSD: A Benchmark Dataset for Floor Plan Generation of Building Complexes [6.9924720592711935]
textbfModified Swiss Dwellings (MSD) - 大規模なフロアプランデータセット。
MSDは中規模から大規模の複合住宅の5.3K以上のフロアプランがあり、18.9K以上のアパートをカバーしている。
論文 参考訳(メタデータ) (2024-07-14T08:51:25Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - City Foundation Models for Learning General Purpose Representations from OpenStreetMap [16.09047066527081]
本稿では,都市のような選択された地理的関心領域における基礎モデルをトレーニングするためのフレームワークであるCityFMを紹介する。
CityFMはOpenStreetMapからのオープンデータにのみ依存し、異なるタイプのエンティティ、空間、視覚、およびテキスト情報のマルチモーダル表現を生成する。
すべての実験において、CityFMはベースラインに匹敵する、あるいは同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-01T05:55:30Z) - From Isolated Islands to Pangea: Unifying Semantic Space for Human Action Understanding [50.412121156940294]
アクション理解は、物理空間から意味空間へのマッピングとして形成することができる。
そこで本研究では,Pangeaを完全に活用するために,物理空間から意味空間への新たなモデルマッピングを提案する。
論文 参考訳(メタデータ) (2023-04-02T15:04:43Z) - Building Floorspace in China: A Dataset and Learning Pipeline [0.32228025627337864]
本稿は、中国40大都市における建物の床面積を計測する最初のマイルストーンを提供する。
我々は、メインデータソースとしてSentinel-1と-2の衛星画像を使用する。
データ、アルゴリズム、評価の詳細な説明を提供する。
論文 参考訳(メタデータ) (2023-03-03T21:45:36Z) - FloorLevel-Net: Recognizing Floor-Level Lines with
Height-Attention-Guided Multi-task Learning [49.30194762653723]
本研究は, 教師付き深層学習手法を用いて, ストリートビュー画像中のフロアレベル線の位置を求める問題に対処する。
まず、新しいデータセットをコンパイルし、トレーニングサンプルを合成する新しいデータ拡張スキームを開発する。
次にFloorLevel-Netを設計する。FloorLevel-Netは、ファサードと暗黙のフロアレベルラインの明示的な特徴を関連付けるマルチタスク学習ネットワークである。
論文 参考訳(メタデータ) (2021-07-06T08:17:59Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Graph-Based Generative Representation Learning of Semantically and
Behaviorally Augmented Floorplans [12.488287536032747]
本稿では,アトリビュートグラフを用いて幾何学的情報を表現するフロアプラン埋め込み手法と,ノード属性やエッジ属性として住民のセマンティクスや行動特徴をデザインする手法を提案する。
長短期記憶(LSTM)変動オートエンコーダ(VAE)アーキテクチャを提案し,連続空間に属性グラフをベクトルとして埋め込むように訓練した。
入力に対する埋め込み空間から得られた類似のフロアプランの結合度を評価するために,ユーザ調査を行った。
論文 参考訳(メタデータ) (2020-12-08T20:51:56Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。