論文の概要: Leveraging Multimodal LLMs for Built Environment and Housing Attribute Assessment from Street-View Imagery
- arxiv url: http://arxiv.org/abs/2604.21102v1
- Date: Wed, 22 Apr 2026 21:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.191506
- Title: Leveraging Multimodal LLMs for Built Environment and Housing Attribute Assessment from Street-View Imagery
- Title(参考訳): 建築環境におけるマルチモーダルLLMの活用とストリートビュー画像による住宅属性評価
- Authors: Siyuan Yao, Siavash Ghorbany, Kuangshi Ai, Arnav Cherukuthota, Meghan Forstchen, Alexis Korotasz, Matthew Sisk, Ming Hu, Chaoli Wang,
- Abstract要約: 本稿では,大規模言語モデル (LLM) とGoogleストリートビュー (GSV) の画像を活用することで,全米の建築条件を自動的に評価する新しい枠組みを提案する。
提案手法は, SRCC, PLCCにおいて, 平均評価スコア (MOS) と強い整合性を実現し, 個人でも高い成績を示した。
我々のフレームワークは、大規模建築条件評価のための柔軟で効率的なソリューションを提供し、人間のラベル付けを最小限に抑えることで高い精度を実現する。
- 参考スコア(独自算出の注目度): 11.903829789742725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel framework for automatically evaluating building conditions nationwide in the United States by leveraging large language models (LLMs) and Google Street View (GSV) imagery. By fine-tuning Gemma 3 27B on a modest human-labeled dataset, our approach achieves strong alignment with human mean opinion scores (MOS), outperforming even individual raters on SRCC and PLCC relative to the MOS benchmark. To enhance efficiency, we apply knowledge distillation, transferring the capabilities of Gemma 3 27B to a smaller Gemma 3 4B model that achieves comparable performance with a 3x speedup. Further, we distill the knowledge into a CNN-based model (EfficientNetV2-M) and a transformer (SwinV2-B), delivering close performance while achieving a 30x speed gain. Furthermore, we investigate LLMs' capabilities for assessing an extensive list of built environment and housing attributes through a human-AI alignment study and develop a visualization dashboard that integrates LLM assessment outcomes for downstream analysis by homeowners. Our framework offers a flexible and efficient solution for large-scale building condition assessment, enabling high accuracy with minimal human labeling effort.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) とGoogleストリートビュー (GSV) の画像を活用することで,全米の建築条件を自動的に評価する新しい枠組みを提案する。
厳密な人間ラベル付きデータセット上でGemma 3 27Bを微調整することにより、人間の平均世論スコア(MOS)との強い整合性を達成し、MOSベンチマークと比較してSRCCとPLCCの個々のレーダよりも優れる。
効率を向上させるために,知識蒸留を適用し,Gemma 3 27Bの能力を3倍の高速化で同等の性能を達成できるより小さなGemma 3 4Bモデルに転送する。
さらに,その知識をCNNベースのモデル (EfficientNetV2-M) と変換器 (SwinV2-B) に抽出し,30倍の高速化を実現した。
さらに、人間とAIのアライメント研究を通じて、建築環境と住宅属性の広範なリストを評価できるLCMの能力について検討し、住宅所有者による下流分析のためのLCM評価結果を統合する可視化ダッシュボードを開発した。
我々のフレームワークは、大規模建築条件評価のための柔軟で効率的なソリューションを提供し、人間のラベル付けを最小限に抑えることで高い精度を実現する。
関連論文リスト
- FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - iDETEX: Empowering MLLMs for Intelligent DETailed EXplainable IQA [10.857047397246598]
iDETEXはMLLM(Multimodal large language model)であり、品質基盤、知覚、記述の3つの重要なタスクを同時に実行することができる。
我々は,iDETEXが全サブタスクにわたる最先端性能を実現する大規模ViDA-UGCベンチマークに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-10-20T09:26:12Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。