Fugu-MT 論文翻訳(概要): Qwen-BIM: developing large language model for BIM-based design with domain-specific benchmark and dataset

論文の概要: Qwen-BIM: developing large language model for BIM-based design with domain-specific benchmark and dataset

arxiv url: http://arxiv.org/abs/2602.20812v1
Date: Tue, 24 Feb 2026 11:51:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.735896
Title: Qwen-BIM: developing large language model for BIM-based design with domain-specific benchmark and dataset
Title（参考訳）: Qwen-BIM:ドメイン固有のベンチマークとデータセットを用いたBIMベース設計のための大規模言語モデルの開発
Authors: Jia-Rui Lin, Yun-Hong Cai, Xiang-Rui Ni, Shaojie Zhou, Peng Pan,
Abstract要約: 本研究では,BIMに基づく設計のためのドメイン固有LLMを,総合的なベンチマークと高品質なデータセットを導入して開発する。 14Bのパラメータしか持たないQwen-BIMの性能は、BIMベースの設計タスクに対して671Bのパラメータを持つ一般的なLLMに匹敵する。
参考スコア（独自算出の注目度）: 0.6016484420461338
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As the construction industry advances toward digital transformation, BIM (Building Information Modeling)-based design has become a key driver supporting intelligent construction. Despite Large Language Models (LLMs) have shown potential in promoting BIM-based design, the lack of specific datasets and LLM evaluation benchmarks has significantly hindered the performance of LLMs. Therefore, this paper addresses this gap by proposing: 1) an evaluation benchmark for BIM-based design together with corresponding quantitative indicators to evaluate the performance of LLMs, 2) a method for generating textual data from BIM and constructing corresponding BIM-derived datasets for LLM evaluation and fine-tuning, and 3) a fine-tuning strategy to adapt LLMs for BIM-based design. Results demonstrate that the proposed domain-specific benchmark effectively and comprehensively assesses LLM capabilities, highlighting that general LLMs are still incompetent for domain-specific tasks. Meanwhile, with the proposed benchmark and datasets, Qwen-BIM is developed and achieves a 21.0% average increase in G-Eval score compared to the base LLM model. Notably, with only 14B parameters, performance of Qwen-BIM is comparable to that of general LLMs with 671B parameters for BIM-based design tasks. Overall, this study develops the first domain-specific LLM for BIM-based design by introducing a comprehensive benchmark and high-quality dataset, which provide a solid foundation for developing BIM-related LLMs in various fields.
Abstract（参考訳）: 建設産業がデジタルトランスフォーメーションへと進むにつれ、BIMベースのデザインは知的構築を支える重要な要因となっている。 LLM(Large Language Models)は、BIMベースの設計を促進する可能性を示しているが、特定のデータセットやLLM評価ベンチマークの欠如により、LLMの性能が著しく損なわれている。そこで本稿では,このギャップを次のように論じる。 1)LLMの性能を評価するため,BIMに基づく設計評価ベンチマークと対応する定量指標を併用した評価ベンチマーク。 2) BIM からテキストデータを生成し,それに対応する BIM 由来のデータセットを構築して LLM の評価と微調整を行う方法。 3) BIM設計にLLMを適用するための微調整戦略。その結果、提案したドメイン固有ベンチマークはLLMの能力を効果的かつ包括的に評価し、一般のLLMはドメイン固有タスクには相変わらず不適であることを示した。一方,提案したベンチマークとデータセットにより,Qwen-BIMはベースLLMモデルと比較してG-Evalスコアが平均21.0%向上する。特に、Qwen-BIM は 14B のパラメータしか持たないため、BIM ベースの設計タスクに対して 671B のパラメータを持つ一般 LLM に匹敵する性能である。総合的なベンチマークと高品質なデータセットを導入し,BIM 関連 LLM を様々な分野で開発するための基盤となる,BIM ベースの設計のためのドメイン固有 LLM を開発した。

関連論文リスト

Harnessing Deep LLM Participation for Robust Entity Linking [14.079957943961276]
DeepELは大規模言語モデル(LLM)をエンティティリンクタスクのすべてのステージに組み込む包括的なフレームワークです。この制限に対処するために,グローバルな文脈情報を利用する新しい自己検証機構を提案する。 10のベンチマークデータセットにわたる大規模な経験的評価は、DeepELが既存の最先端メソッドを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2025-11-18T06:35:26Z)
LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation [0.7933039558471408]
我々は,複雑な解析的および数学的推論タスクに,文脈的理解が不要であることに対処する。既存のベンチマークデータセットは、動的な環境、変数、不均一な制約でそのような問題の複雑さに対処できない。 NL4RAは、LP、ILP、MILPとして定式化された50のリソース割り当て最適化問題からなるキュレートデータセットである。次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
論文参考訳（メタデータ） (2025-11-13T23:19:43Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
BLADE: Benchmark suite for LLM-driven Automated Design and Evolution of iterative optimisation heuristics [2.2485774453793037]
BLADEは、連続的なブラックボックス最適化コンテキストにおいてLLM駆動のAADメソッドをベンチマークするためのフレームワークである。ベンチマーク問題とインスタンスジェネレータ、特殊化や情報エクスプロイトといった機能重視のテストを目的としたテキスト記述を統合する。 BLADEは、LCM駆動のAADアプローチを体系的に評価する、アウト・オブ・ザ・ボックスのソリューションを提供する。
論文参考訳（メタデータ） (2025-04-28T18:34:09Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning [52.29223403698673]
本稿では, Answer Set Programming (ASP) とともに, Conformal Language Modelling (CLM) の使用について検討する。 LLM から ASP プログラムの集合を生成するために CLM を適用し,出力の正確性に関する統計的保証を提供する。実験の結果,標準サンプリング手法を用いたベースラインモデルではCLMが有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T14:10:10Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文参考訳（メタデータ） (2024-10-28T20:42:46Z)
Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。 EM-MIAはWikiMIAで最先端の結果を得る。
論文参考訳（メタデータ） (2024-10-10T03:31:16Z)
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文参考訳（メタデータ） (2024-08-16T06:11:21Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
An ontology-aided, natural language-based approach for multi-constraint BIM model querying [0.0]
本稿では,異なる制約を含む自然言語クエリ(NLQ)を,複雑なBIMモデルを問合せするためのコンピュータ可読コードに自動的にマッピングする,新しいオントロジー支援セマンティクスを提案する。実世界の住宅ビルの設計チェックに関する事例研究は,建設業における提案手法の実践的価値を実証している。
論文参考訳（メタデータ） (2023-03-27T11:35:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。