論文の概要: Table Comprehension in Building Codes using Vision Language Models and Domain-Specific Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.18306v1
- Date: Sun, 23 Nov 2025 06:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.76233
- Title: Table Comprehension in Building Codes using Vision Language Models and Domain-Specific Fine-Tuning
- Title(参考訳): 視覚言語モデルとドメイン特化ファインチューニングを用いた建築コードの表理解
- Authors: Mohammad Aqib, Mohd Hamza, Ying Hei Chui, Qipei Mei,
- Abstract要約: 建設コードには、安全、規制の遵守、建設と工学における情報的意思決定を保証する重要な情報が含まれている。
このタスクには,情報検索の精度と言語モデルの生成能力を組み合わせるため,RAG(Retrieval-Augmented Generation)システムが必要である。
本稿では,複数の事前学習された視覚言語モデル(VLM)を用いて,建築コードの表データから情報を抽出する2つの手法について検討・比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building codes contain critical information for ensuring safety, regulatory compliance, and informed decision-making in construction and engineering. Automated question answering systems over such codes enable quick and accurate access to specific regulatory clauses, improving efficiency and reducing errors. Retrieval-Augmented Generation (RAG) systems are essential for this task as they combine the precision of information retrieval with the generative capabilities of language models. However, tabular data are challenging to extract as they often involve complex layouts, merged cells, multi-row headers, and embedded semantic relationships that are not easily captured by traditional natural language processing techniques and Vision Language Models (VLMs). This paper explores and compares two methods for extracting information from tabular data in building codes using several pre-trained VLMs. First, a direct input method is used, where the image of the page is input directly into the VLMs, which are then tasked with answering questions based on the image. Second, an indirect input method is introduced, which involves converting an image of a page containing tables into the LaTeX code and then answering inquires based on the LaTeX-based input. The experiments find that the direct input method generally resulted in higher accuracy than the indirect input method. To further improve the performance, we fine-tuned each VLM using Low Rank Adaptation (LoRA) on a domain-specific tabular dataset. The fine-tuned models exhibited substantial improvements, with Qwen2.5-VL-3B-Instruct achieving relative accuracy gains exceeding 100%. Our results highlight the potential of parameter-efficient fine-tuning methods to adapt powerful VLMs for understanding complex structured data in specialized fields, such as building code interpretation and regulatory compliance.
- Abstract(参考訳): 建設コードには、安全、規制の遵守、建設と工学における情報的意思決定を保証する重要な情報が含まれている。
このようなコードに対する自動質問応答システムは、特定の規制条項への迅速かつ正確なアクセスを可能にし、効率を改善し、エラーを減らす。
このタスクには,情報検索の精度と言語モデルの生成能力を組み合わせるため,RAG(Retrieval-Augmented Generation)システムが必要である。
しかし、複雑なレイアウト、融合セル、マルチローヘッダ、従来の自然言語処理技術や視覚言語モデル(VLM)では容易に取得できない組み込みセマンティックな関係など、表形式でのデータを抽出することは困難である。
本稿では,事前学習したVLMを用いて,ビルディングコード中の表データから情報を抽出する2つの手法について検討・比較する。
まず、直接入力方式を用い、ページの画像をVLMに直接入力し、その画像に基づいて質問に回答する。
次に、テーブルを含むページの画像をLaTeXコードに変換し、LaTeXベースの入力に基づいて問い合わせに応答する間接入力方式を提案する。
実験の結果,直接入力法は間接入力法よりも精度が高いことがわかった。
さらに性能向上のために,ドメイン固有の表付きデータセット上で,ローランク適応(LoRA)を用いて各VLMを微調整した。
微調整されたモデルは大幅に改善され、Qwen2.5-VL-3B-インストラクションは100%以上の精度向上を達成した。
本研究は,コード解釈や規制遵守など,特殊な分野における複雑な構造化データを理解するために,強力なVLMを適用するためのパラメータ効率の高い微調整手法の可能性を強調した。
関連論文リスト
- Automated Invoice Data Extraction: Using LLM and OCR [0.0]
この研究は、OCR、ディープラーニング、LLM(Large Language Models)、グラフ分析を組み合わせた総合人工知能(AI)プラットフォームを導入し、前例のない抽出品質と一貫性を実現する。
論文 参考訳(メタデータ) (2025-11-01T19:05:09Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Text to Band Gap: Pre-trained Language Models as Encoders for Semiconductor Band Gap Prediction [9.325818199739759]
本稿では,半導体材料のバンドギャップを予測するために,RoBERTa,T5,Llama-3,MatSciBERTなどのトランスフォーマーベース言語モデルについて検討する。
入力は、化学組成、結晶系、空間群、その他の構造的および電子的性質などの重要な材料特性を符号化する。
論文 参考訳(メタデータ) (2025-01-07T00:56:26Z) - On LLM-Enhanced Mixed-Type Data Imputation with High-Order Message Passing [29.144451092549048]
データ計算の欠如は、データセットの完全性を達成するために、生データセットの欠落した値をインプットすることを目的としている。
1)数値データと分類データしかサポートしていないか,2)不満足な性能を示す。
We propose UnIMP, a Unified IMPutation framework that leverageing LLM and high-order message passing to enhance the imputation of mixed-type data。
論文 参考訳(メタデータ) (2025-01-04T05:05:44Z) - Towards Efficient Methods in Medical Question Answering using Knowledge Graph Embeddings [3.944219308229571]
自然言語処理(NLP)では、機械読解(MRC)は与えられた文脈に基づいて質問に答えるタスクである。
医療領域における質問に対処するために、BioBERT、SciBERT、ChatGPTといった現代言語モデルは、膨大なドメイン内医療コーパスで訓練されている。
本稿では、そのようなドメイン固有の事前学習に頼ることなく、モデルにドメイン知識を注入するためのリソース効率のよいアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T21:43:46Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z) - Adapting Knowledge for Few-shot Table-to-Text Generation [35.59842534346997]
AKG(Adapt-Knowledge-to-Generate)という新しいフレームワークを提案する。
AKGはラベルのないドメイン固有の知識をモデルに適応させ、少なくとも3つの利点をもたらす。
本モデルでは,人間の評価と自動評価により,流速,精度の両面において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-24T05:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。