論文の概要: Sketch2BIM: A Multi-Agent Human-AI Collaborative Pipeline to Convert Hand-Drawn Floor Plans to 3D BIM
- arxiv url: http://arxiv.org/abs/2510.20838v1
- Date: Thu, 16 Oct 2025 18:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.922584
- Title: Sketch2BIM: A Multi-Agent Human-AI Collaborative Pipeline to Convert Hand-Drawn Floor Plans to 3D BIM
- Title(参考訳): Sketch2BIM: 手描きフロアプランを3DBIMに変換するマルチエージェントAIコラボレーションパイプライン
- Authors: Abir Khan Ratul, Sanjay Acharjee, Somin Park, Md Nazmus Sakib,
- Abstract要約: 本研究では,手書きのフロアプランスケッチを意味的に一貫した3次元BIMモデルに変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces a human-in-the-loop pipeline that converts unscaled, hand-drawn floor plan sketches into semantically consistent 3D BIM models. The workflow leverages multimodal large language models (MLLMs) within a multi-agent framework, combining perceptual extraction, human feedback, schema validation, and automated BIM scripting. Initially, sketches are iteratively refined into a structured JSON layout of walls, doors, and windows. Later, these layouts are transformed into executable scripts that generate 3D BIM models. Experiments on ten diverse floor plans demonstrate strong convergence: openings (doors, windows) are captured with high reliability in the initial pass, while wall detection begins around 83% and achieves near-perfect alignment after a few feedback iterations. Across all categories, precision, recall, and F1 scores remain above 0.83, and geometric errors (RMSE, MAE) progressively decrease to zero through feedback corrections. This study demonstrates how MLLM-driven multi-agent reasoning can make BIM creation accessible to both experts and non-experts using only freehand sketches.
- Abstract(参考訳): 本研究では,手書きのフロアプランスケッチを意味的に一貫した3次元BIMモデルに変換する。
このワークフローは、マルチエージェントフレームワーク内のマルチモーダルな大規模言語モデル(MLLM)を活用し、知覚的抽出、人間のフィードバック、スキーマ検証、自動BIMスクリプティングを組み合わせる。
当初、スケッチは、壁、ドア、ウィンドウの構造化JSONレイアウトに反復的に洗練されます。
その後、これらのレイアウトは3D BIMモデルを生成する実行可能なスクリプトに変換される。
開口部(ドア、窓)は最初のパスで高い信頼性で捕捉され、壁検出は約83%始まり、数回のフィードバックを繰り返してほぼ完璧なアライメントを達成する。
すべてのカテゴリ、精度、リコール、F1スコアは0.83以上であり、幾何誤差(RMSE、MAE)はフィードバック修正によって徐々にゼロに減少する。
本研究は,MLLMによるマルチエージェント推論が,フリーハンドスケッチのみを用いて,専門家と非専門家の両方にBIM作成を可能にすることを示す。
関連論文リスト
- Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model [15.892685514932323]
マルチビュールームレイアウト推定のための新しい手法であるPlain-DUSt3Rを提案する。
Plane-DUSt3RはDUSt3Rフレームワークを室内レイアウトデータセット(Structure3D)に組み込んで構造平面を推定する。
均一かつ同相な結果を生成することにより、Plane-DUSt3Rは、単一の後処理ステップと2D検出結果のみを用いて、部屋レイアウトの推定を可能にする。
論文 参考訳(メタデータ) (2025-02-24T02:14:19Z) - CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning [43.7594705101778]
CLAPと呼ばれる画像と点雲の教師なし微分レンダリングに基づく事前学習手法を提案する。
本手法は、事前学習のためのより情報性の高い点/画素を選択するために、曲率サンプリングによる計算ハードルを克服する。
CLAPは従来のSOTA事前学習法と比較して最大100%性能向上を達成した。
論文 参考訳(メタデータ) (2024-12-04T06:26:12Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Monocular, One-stage, Regression of Multiple 3D People [105.3143785498094]
我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-08-27T17:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。