論文の概要: Qwen-BIM: developing large language model for BIM-based design with domain-specific benchmark and dataset
- arxiv url: http://arxiv.org/abs/2602.20812v1
- Date: Tue, 24 Feb 2026 11:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.735896
- Title: Qwen-BIM: developing large language model for BIM-based design with domain-specific benchmark and dataset
- Title(参考訳): Qwen-BIM:ドメイン固有のベンチマークとデータセットを用いたBIMベース設計のための大規模言語モデルの開発
- Authors: Jia-Rui Lin, Yun-Hong Cai, Xiang-Rui Ni, Shaojie Zhou, Peng Pan,
- Abstract要約: 本研究では,BIMに基づく設計のためのドメイン固有LLMを,総合的なベンチマークと高品質なデータセットを導入して開発する。
14Bのパラメータしか持たないQwen-BIMの性能は、BIMベースの設計タスクに対して671Bのパラメータを持つ一般的なLLMに匹敵する。
- 参考スコア(独自算出の注目度): 0.6016484420461338
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the construction industry advances toward digital transformation, BIM (Building Information Modeling)-based design has become a key driver supporting intelligent construction. Despite Large Language Models (LLMs) have shown potential in promoting BIM-based design, the lack of specific datasets and LLM evaluation benchmarks has significantly hindered the performance of LLMs. Therefore, this paper addresses this gap by proposing: 1) an evaluation benchmark for BIM-based design together with corresponding quantitative indicators to evaluate the performance of LLMs, 2) a method for generating textual data from BIM and constructing corresponding BIM-derived datasets for LLM evaluation and fine-tuning, and 3) a fine-tuning strategy to adapt LLMs for BIM-based design. Results demonstrate that the proposed domain-specific benchmark effectively and comprehensively assesses LLM capabilities, highlighting that general LLMs are still incompetent for domain-specific tasks. Meanwhile, with the proposed benchmark and datasets, Qwen-BIM is developed and achieves a 21.0% average increase in G-Eval score compared to the base LLM model. Notably, with only 14B parameters, performance of Qwen-BIM is comparable to that of general LLMs with 671B parameters for BIM-based design tasks. Overall, this study develops the first domain-specific LLM for BIM-based design by introducing a comprehensive benchmark and high-quality dataset, which provide a solid foundation for developing BIM-related LLMs in various fields.
- Abstract(参考訳): 建設産業がデジタルトランスフォーメーションへと進むにつれ、BIMベースのデザインは知的構築を支える重要な要因となっている。
LLM(Large Language Models)は、BIMベースの設計を促進する可能性を示しているが、特定のデータセットやLLM評価ベンチマークの欠如により、LLMの性能が著しく損なわれている。
そこで本稿では,このギャップを次のように論じる。
1)LLMの性能を評価するため,BIMに基づく設計評価ベンチマークと対応する定量指標を併用した評価ベンチマーク。
2) BIM からテキストデータを生成し,それに対応する BIM 由来のデータセットを構築して LLM の評価と微調整を行う方法。
3) BIM設計にLLMを適用するための微調整戦略。
その結果、提案したドメイン固有ベンチマークはLLMの能力を効果的かつ包括的に評価し、一般のLLMはドメイン固有タスクには相変わらず不適であることを示した。
一方,提案したベンチマークとデータセットにより,Qwen-BIMはベースLLMモデルと比較してG-Evalスコアが平均21.0%向上する。
特に、Qwen-BIM は 14B のパラメータしか持たないため、BIM ベースの設計タスクに対して 671B のパラメータを持つ一般 LLM に匹敵する性能である。
総合的なベンチマークと高品質なデータセットを導入し,BIM 関連 LLM を様々な分野で開発するための基盤となる,BIM ベースの設計のためのドメイン固有 LLM を開発した。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - BLADE: Benchmark suite for LLM-driven Automated Design and Evolution of iterative optimisation heuristics [2.2485774453793037]
BLADEは、連続的なブラックボックス最適化コンテキストにおいてLLM駆動のAADメソッドをベンチマークするためのフレームワークである。
ベンチマーク問題とインスタンスジェネレータ、特殊化や情報エクスプロイトといった機能重視のテストを目的としたテキスト記述を統合する。
BLADEは、LCM駆動のAADアプローチを体系的に評価する、アウト・オブ・ザ・ボックスのソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-28T18:34:09Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - An ontology-aided, natural language-based approach for multi-constraint
BIM model querying [0.0]
本稿では,異なる制約を含む自然言語クエリ(NLQ)を,複雑なBIMモデルを問合せするためのコンピュータ可読コードに自動的にマッピングする,新しいオントロジー支援セマンティクスを提案する。
実世界の住宅ビルの設計チェックに関する事例研究は,建設業における提案手法の実践的価値を実証している。
論文 参考訳(メタデータ) (2023-03-27T11:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。