論文の概要: Segment Any Architectural Facades (SAAF):An automatic segmentation model for building facades, walls and windows based on multimodal semantics guidance
- arxiv url: http://arxiv.org/abs/2506.09071v1
- Date: Mon, 09 Jun 2025 13:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.636509
- Title: Segment Any Architectural Facades (SAAF):An automatic segmentation model for building facades, walls and windows based on multimodal semantics guidance
- Title(参考訳): Segment Any Architectural Facades (SAAF):マルチモーダル・セマンティクス・ガイダンスに基づくファサード、壁、窓の自動セグメンテーションモデル
- Authors: Peilin Li, Jun Yin, Jing Zhong, Ran Luo, Pengyu Zeng, Miao Zhang,
- Abstract要約: 本研究では,マルチモーダルな意味指導に基づくファサードの壁や窓の自動セグメンテーションモデルを提案する。
本研究では,テキスト記述から画像分割へのマッピング関係を自律的に学習するためのエンドツーエンドトレーニングフレームワークを開発した。
本モデルでは,壁面分割作業と窓分割作業の精度向上と一般化能力の向上を図っている。
- 参考スコア(独自算出の注目度): 17.461797749810327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of the digital development of architecture, the automatic segmentation of walls and windows is a key step in improving the efficiency of building information models and computer-aided design. This study proposes an automatic segmentation model for building facade walls and windows based on multimodal semantic guidance, called Segment Any Architectural Facades (SAAF). First, SAAF has a multimodal semantic collaborative feature extraction mechanism. By combining natural language processing technology, it can fuse the semantic information in text descriptions with image features, enhancing the semantic understanding of building facade components. Second, we developed an end-to-end training framework that enables the model to autonomously learn the mapping relationship from text descriptions to image segmentation, reducing the influence of manual intervention on the segmentation results and improving the automation and robustness of the model. Finally, we conducted extensive experiments on multiple facade datasets. The segmentation results of SAAF outperformed existing methods in the mIoU metric, indicating that the SAAF model can maintain high-precision segmentation ability when faced with diverse datasets. Our model has made certain progress in improving the accuracy and generalization ability of the wall and window segmentation task. It is expected to provide a reference for the development of architectural computer vision technology and also explore new ideas and technical paths for the application of multimodal learning in the architectural field.
- Abstract(参考訳): 建築のデジタル開発において、壁と窓の自動セグメンテーションは、情報モデルの構築とコンピュータ支援設計の効率を向上させるための重要なステップである。
本研究では, ファサードの壁と窓の自動セグメンテーションモデルを提案し, セグメンテーション・アナーアーキテクチャ・ファサード (SAAF) と呼ばれるマルチモーダル・セマンティック・ガイダンスを用いた。
まず、SAAFはマルチモーダルなセマンティックな特徴抽出機構を備えている。
自然言語処理技術により、テキスト記述中の意味情報を画像特徴と融合させ、ファサードコンポーネントのセマンティック理解を高めることができる。
第2に,テキスト記述から画像セグメンテーションへのマッピング関係を自律的に学習し,セグメンテーション結果に対する手動介入の影響を低減し,モデルの自動化と堅牢性を向上させるエンド・ツー・エンドのトレーニングフレームワークを開発した。
最後に,複数のファサードデータセットについて広範な実験を行った。
SAAFのセグメンテーション結果は,mIoU測定において既存の手法よりも優れており,多様なデータセットに直面すると,SAAFモデルが高精度セグメンテーション能力を維持できることが示唆された。
本モデルでは,壁面分割作業と窓分割作業の精度向上と一般化能力の向上を図っている。
建築分野におけるマルチモーダル・ラーニングの適用に向けて,アーキテクチャ・コンピュータビジョン技術開発の参考として,新たなアイデアと技術パスを探求することが期待されている。
関連論文リスト
- A Survey of Model Architectures in Information Retrieval [64.75808744228067]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Interpretable deformable image registration: A geometric deep learning perspective [9.13809412085203]
解釈可能な登録フレームワークを設計するための理論的基盤を提示する。
粗い方法で変換を洗練するエンドツーエンドのプロセスを定式化します。
我々は、最先端のアプローチよりもパフォーマンスの指標が大幅に改善されたと結論付けている。
論文 参考訳(メタデータ) (2024-12-17T19:47:10Z) - Ensemble architecture in polyp segmentation [0.0]
本研究では, 意味的セグメンテーションのアーキテクチャと, ポリープセグメンテーションに優れた評価モデルについて検討する。
最適な結果を得るために,異なるモデルの利点を利用する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-14T02:57:38Z) - Interfacing Foundation Models' Embeddings [131.0352288172788]
ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。
インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
論文 参考訳(メタデータ) (2023-12-12T18:58:02Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Dynamically Grown Generative Adversarial Networks [111.43128389995341]
本稿では、ネットワークアーキテクチャとそのパラメータを自動化とともに最適化し、トレーニング中にGANを動的に成長させる手法を提案する。
本手法はアーキテクチャ探索手法を勾配に基づく訓練とインターリーブステップとして組み込んで,ジェネレータと識別器の最適アーキテクチャ成長戦略を定期的に探究する。
論文 参考訳(メタデータ) (2021-06-16T01:25:51Z) - End-to-End Trainable Deep Active Contour Models for Automated Image
Segmentation: Delineating Buildings in Aerial Imagery [12.442780294349049]
Trainable Deep Active Contours (TDAC)は、CNN(Convolutional Networks)とACM(Active Contour Models)を結合した自動イメージセグメンテーションフレームワークである。
TDACは、画像中の多くの建物を高速で、正確で、完全に自動で同時に配置する。
論文 参考訳(メタデータ) (2020-07-22T21:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。