論文の概要: BIMgent: Towards Autonomous Building Modeling via Computer-use Agents
- arxiv url: http://arxiv.org/abs/2506.07217v2
- Date: Mon, 30 Jun 2025 08:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.63509
- Title: BIMgent: Towards Autonomous Building Modeling via Computer-use Agents
- Title(参考訳): BIMgent: コンピュータ利用エージェントによる自律的な建物モデリングを目指して
- Authors: Zihan Deng, Changyu Du, Stavros Nousias, André Borrmann,
- Abstract要約: マルチモーダル大言語モデル(LLM)を利用したエージェントフレームワークBIMgentを提案する。
BIMgentを実世界のビルディングモデリングタスクで評価し、テキストベースの概念設計生成と既存ビルディング設計からの再構築を両立させた。
その結果、BIMgentは設計意図を保ちながら手作業の負荷を効果的に削減し、実際のアーキテクチャモデリングシナリオにおける実践的なデプロイの可能性を強調している。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing computer-use agents primarily focus on general-purpose desktop automation tasks, with limited exploration of their application in highly specialized domains. In particular, the 3D building modeling process in the Architecture, Engineering, and Construction (AEC) sector involves open-ended design tasks and complex interaction patterns within Building Information Modeling (BIM) authoring software, which has yet to be thoroughly addressed by current studies. In this paper, we propose BIMgent, an agentic framework powered by multimodal large language models (LLMs), designed to enable autonomous building model authoring via graphical user interface (GUI) operations. BIMgent automates the architectural building modeling process, including multimodal input for conceptual design, planning of software-specific workflows, and efficient execution of the authoring GUI actions. We evaluate BIMgent on real-world building modeling tasks, including both text-based conceptual design generation and reconstruction from existing building design. The design quality achieved by BIMgent was found to be reasonable. Its operations achieved a 32% success rate, whereas all baseline models failed to complete the tasks (0% success rate). Results demonstrate that BIMgent effectively reduces manual workload while preserving design intent, highlighting its potential for practical deployment in real-world architectural modeling scenarios. Project page: https://tumcms.github.io/BIMgent.github.io/
- Abstract(参考訳): 既存のコンピュータ利用エージェントは、主に汎用デスクトップ自動化タスクに焦点を合わせ、高度に専門化されたドメインでのアプリケーションを限定的に探索する。
特に、AEC(Architecture, Engineering, and Construction)セクターにおける3Dビルディングモデリングプロセスでは、ビルディング情報モデリング(Building Information Modeling, BIM)オーサリングソフトウェアにおけるオープンエンドデザインタスクと複雑なインタラクションパターンが関係しています。
本稿では,マルチモーダル大規模言語モデル(LLM)を利用したエージェントフレームワークであるBIMgentを提案する。
BIMgentは、概念設計のためのマルチモーダル入力、ソフトウェア固有のワークフローの計画、オーサリングGUIアクションの効率的な実行を含む、アーキテクチャ構築モデリングプロセスを自動化する。
BIMgentを実世界のビルディングモデリングタスクで評価し、テキストベースの概念設計生成と既存ビルディング設計からの再構築を両立させた。
BIMgentによって達成された設計品質は妥当であることが判明した。
その運用は32%の成功率を達成したが、すべてのベースラインモデルはタスクを完了できなかった(0%の成功率)。
その結果、BIMgentは設計意図を保ちながら手作業の負荷を効果的に削減し、実際のアーキテクチャモデリングシナリオにおける実践的なデプロイの可能性を強調している。
プロジェクトページ: https://tumcms.github.io/BIMgent.github.io/
関連論文リスト
- CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design [69.83433430133302]
CreatiDesignは、モデルアーキテクチャとデータセット構築の両方をカバーする、自動グラフィック設計のための体系的なソリューションである。
まず、異種設計要素の柔軟かつ正確な統合を可能にする統合されたマルチ条件駆動アーキテクチャを設計する。
さらに,各条件が指定された画像領域を正確に制御することを保証するため,マルチモーダルアテンションマスク機構を提案する。
論文 参考訳(メタデータ) (2025-05-25T12:14:23Z) - ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - An LLM-enabled Multi-Agent Autonomous Mechatronics Design Framework [49.633199780510864]
本研究は, 機械設計, 最適化, エレクトロニクス, ソフトウェア工学の専門知識を統合した多エージェント自律メカトロニクス設計フレームワークを提案する。
このフレームワークは、言語駆動のワークフローを通じて運用され、構造化された人間のフィードバックを組み込んで、現実世界の制約下での堅牢なパフォーマンスを保証する。
完全に機能する自律型容器は、最適化された推進、コスト効率の高い電子機器、高度な制御を備えていた。
論文 参考訳(メタデータ) (2025-04-20T16:57:45Z) - Knowledge-Based Multi-Agent Framework for Automated Software Architecture Design [8.082263503892912]
知識に基づくマルチエージェントアーキテクチャ設計(MAAD)フレームワークを構想する。
MAADはエージェントを使用して、従来のソフトウェアアーキテクチャ設計プロセスにおけるヒューマンロールをシミュレートする。
アプリケーションレベルのシステム開発を完全に自動化することを目指しています。
論文 参考訳(メタデータ) (2025-03-26T13:35:10Z) - From Idea to CAD: A Language Model-Driven Multi-Agent System for Collaborative Design [0.06749750044497731]
本稿では,このチーム構造を視覚言語モデル(VLM)に基づくマルチエージェントシステムで再現する手法を提案する。
モデルはスケッチやテキスト記述から自動的に生成される。
得られたモデルは、ユーザとの反復的検証ループで協調的に洗練することができる。
論文 参考訳(メタデータ) (2025-03-06T13:21:27Z) - Knowledge Graph Modeling-Driven Large Language Model Operating System (LLM OS) for Task Automation in Process Engineering Problem-Solving [0.0]
本稿では,化学・プロセス産業における複雑な問題の解決を目的としたAI駆動型フレームワークであるプロセスエンジニアリングオペレーションアシスタント(PEOA)を紹介する。
このフレームワークはメタエージェントによって構成されたモジュラーアーキテクチャを採用しており、中央コーディネータとして機能している。
その結果、計算の自動化、プロトタイピングの高速化、産業プロセスに対するAIによる意思決定支援におけるフレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-08-23T13:52:47Z) - Text2BIM: Generating Building Models Using a Large Language Model-based Multi-Agent Framework [0.3749861135832073]
Text2 BIMは、自然言語命令から3Dビルディングモデルを生成するマルチエージェントフレームワークである。
エージェントワークフローにルールベースのモデルチェッカーを導入し、LLMエージェントを誘導し、生成されたモデル内の問題を解決する。
このフレームワークは、ユーザ入力によって定義された抽象概念に沿った、高品質で構造的に合理的なビルディングモデルを効果的に生成することができる。
論文 参考訳(メタデータ) (2024-08-15T09:48:45Z) - Towards Automating the Retrospective Generation of BIM Models: A Unified Framework for 3D Semantic Reconstruction of the Built Environment [0.0]
情報モデリングの構築は建設プロジェクトで有益である。
しかし、3Dモデルの詳細をBIMに変換する統一的でスケーラブルなフレームワークがないため、課題に直面している。
本稿では,BIM生成のための統合意味再構築アーキテクチャであるSR BIMを紹介する。
論文 参考訳(メタデータ) (2024-06-03T16:07:41Z) - Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models [81.6240188672294]
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
論文 参考訳(メタデータ) (2024-04-23T17:58:33Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。