論文の概要: Can a Large Language Model Assess Urban Design Quality? Evaluating Walkability Metrics Across Expertise Levels
- arxiv url: http://arxiv.org/abs/2504.21040v1
- Date: Mon, 28 Apr 2025 09:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 00:10:36.951471
- Title: Can a Large Language Model Assess Urban Design Quality? Evaluating Walkability Metrics Across Expertise Levels
- Title(参考訳): 大規模言語モデルは都市デザインの質を評価することができるか? : 専門レベルの歩行性指標の評価
- Authors: Chenyi Cai, Kosuke Kuriyama, Youlong Gu, Filip Biljecki, Pieter Herthogs,
- Abstract要約: 都市環境は公共空間における人間の活動を支援するのに不可欠である。
ストリートビュー画像(SVI)や大規模言語モデル(MLLM)といったビッグデータの出現は、研究者や実践者が都市環境を調査し、測定し、評価する方法を変えつつある。
本研究では,都市デザインの質を評価する上で,専門家知識の統合がMLLMの性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Urban street environments are vital to supporting human activity in public spaces. The emergence of big data, such as street view images (SVIs) combined with multimodal large language models (MLLMs), is transforming how researchers and practitioners investigate, measure, and evaluate semantic and visual elements of urban environments. Considering the low threshold for creating automated evaluative workflows using MLLMs, it is crucial to explore both the risks and opportunities associated with these probabilistic models. In particular, the extent to which the integration of expert knowledge can influence the performance of MLLMs in evaluating the quality of urban design has not been fully explored. This study sets out an initial exploration of how integrating more formal and structured representations of expert urban design knowledge into the input prompts of an MLLM (ChatGPT-4) can enhance the model's capability and reliability in evaluating the walkability of built environments using SVIs. We collect walkability metrics from the existing literature and categorize them using relevant ontologies. We then select a subset of these metrics, focusing on the subthemes of pedestrian safety and attractiveness, and develop prompts for the MLLM accordingly. We analyze the MLLM's ability to evaluate SVI walkability subthemes through prompts with varying levels of clarity and specificity regarding evaluation criteria. Our experiments demonstrate that MLLMs are capable of providing assessments and interpretations based on general knowledge and can support the automation of multimodal image-text evaluations. However, they generally provide more optimistic scores and can make mistakes when interpreting the provided metrics, resulting in incorrect evaluations. By integrating expert knowledge, the MLLM's evaluative performance exhibits higher consistency and concentration.
- Abstract(参考訳): 都市の街路環境は公共空間における人間の活動を支援するのに不可欠である。
ストリートビュー画像(SVI)やマルチモーダルな大言語モデル(MLLM)といったビッグデータの出現は、研究者や実践者が都市環境の意味的・視覚的要素を調査、測定、評価する方法を変えつつある。
MLLMを用いた自動評価ワークフロー作成のしきい値の低さを考慮すると、これらの確率モデルに関連するリスクと機会の両方を調査することが重要である。
特に, 都市デザインの質を評価する上で, 専門家知識の統合がMLLMの性能に与える影響については, 十分に検討されていない。
本研究では, MLLM(ChatGPT-4)の入力プロンプトに, より形式的で構造化された都市デザイン知識の表現を組み込むことによって, SVIを用いた建築環境の歩行性評価におけるモデルの能力と信頼性を高める方法について検討した。
既存の文献から歩行可能性指標を収集し,関連するオントロジーを用いて分類する。
次に、歩行者の安全と魅力のサブテーマに焦点をあてて、これらの指標のサブセットを選択し、それに応じてMLLMのプロンプトを開発する。
我々は,SVI歩行可能性のサブテーマを評価するMLLMの能力について,評価基準に関する明瞭度と特異度の異なるプロンプトを用いて分析した。
実験の結果,MLLMは一般的な知識に基づいて評価や解釈を行うことができ,マルチモーダル画像テキスト評価の自動化を支援することができることがわかった。
しかし、それらは一般的により楽観的なスコアを提供し、提供されたメトリクスを解釈する際に間違いを犯し、誤った評価をもたらす。
専門家の知識を統合することで、MLLMの評価性能は高い一貫性と集中度を示す。
関連論文リスト
- EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - Surveying the MLLM Landscape: A Meta-Review of Current Surveys [17.372501468675303]
MLLM(Multimodal Large Language Models)は、人工知能分野における変革の原動力となっている。
本研究の目的は,MLLMのベンチマークテストと評価方法の体系的レビューを提供することである。
論文 参考訳(メタデータ) (2024-09-17T14:35:38Z) - A Survey on Evaluation of Multimodal Large Language Models [11.572066870077888]
マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣する
この枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。
GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
論文 参考訳(メタデータ) (2024-08-28T13:05:55Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - AesBench: An Expert Benchmark for Multimodal Large Language Models on
Image Aesthetics Perception [64.25808552299905]
AesBenchはMLLMの審美的知覚能力の総合評価を目的とした専門家ベンチマークである。
本稿では,プロの審美専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするEAPD(Expert-labeled Aesthetics Perception Database)を構築した。
本稿では,知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。
論文 参考訳(メタデータ) (2024-01-16T10:58:07Z) - TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for
Human-Aligned LLMs [35.717370285231176]
大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる印象的な機能を示している。
本研究では,LLMの習熟度を評価するために,多種多様な実世界の課題に対する指示に従うための包括的人間評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T13:58:59Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。