論文の概要: Do Vision-Language Models See Urban Scenes as People Do? An Urban Perception Benchmark
- arxiv url: http://arxiv.org/abs/2509.14574v1
- Date: Thu, 18 Sep 2025 03:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.044222
- Title: Do Vision-Language Models See Urban Scenes as People Do? An Urban Perception Benchmark
- Title(参考訳): ヴィジュアル・ランゲージ・モデルは都市を人々のように捉えているか? : 都市認識ベンチマーク
- Authors: Rashid Mushkani,
- Abstract要約: モントリオールの街路画像100枚を用いて,都市感における視覚言語モデル(VLM)の検証を行う。
結果は、主観的評価よりも、可視的で客観的な特性に対するモデルアライメントが強いことを示唆している。
我々は,参加型都市分析における再現性,不確実性を考慮した評価のためのベンチマーク,プロンプト,ハーネスをリリースする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how people read city scenes can inform design and planning. We introduce a small benchmark for testing vision-language models (VLMs) on urban perception using 100 Montreal street images, evenly split between photographs and photorealistic synthetic scenes. Twelve participants from seven community groups supplied 230 annotation forms across 30 dimensions mixing physical attributes and subjective impressions. French responses were normalized to English. We evaluated seven VLMs in a zero-shot setup with a structured prompt and deterministic parser. We use accuracy for single-choice items and Jaccard overlap for multi-label items; human agreement uses Krippendorff's alpha and pairwise Jaccard. Results suggest stronger model alignment on visible, objective properties than subjective appraisals. The top system (claude-sonnet) reaches macro 0.31 and mean Jaccard 0.48 on multi-label items. Higher human agreement coincides with better model scores. Synthetic images slightly lower scores. We release the benchmark, prompts, and harness for reproducible, uncertainty-aware evaluation in participatory urban analysis.
- Abstract(参考訳): 人々がどのように都市シーンを読むかを理解することは、設計と計画に影響を及ぼす。
モントリオールの街路画像100枚を用いて、視覚言語モデル(VLM)を都市感でテストするための小さなベンチマークを提案し、写真と写真リアルな合成シーンを均等に分割した。
7つのコミュニティグループから12人の参加者が30次元に230の注釈書を提供し、物理的属性と主観的印象を混合した。
フランスの反応は英語に正規化された。
ゼロショット設定では、7つのVLMをプロンプトと決定論的解析器で評価した。
単一選択項目の精度と複数ラベル項目のJaccardオーバーラップ,KrippendorffのαとペアのJaccardを用いた人間の合意。
結果は、主観的評価よりも、可視的で客観的な特性に対するモデルアライメントが強いことを示唆している。
トップシステム (claude-sonnet) はマクロ0.31に到達し、マルチラベルアイテム上では Jaccard 0.48 となる。
より高い人間の合意は、より良いモデルスコアと一致します。
合成画像はわずかにスコアを下げる。
我々は,参加型都市分析における再現性,不確実性を考慮した評価のためのベンチマーク,プロンプト,ハーネスをリリースする。
関連論文リスト
- A Good CREPE needs more than just Sugar: Investigating Biases in Compositional Vision-Language Benchmarks [32.052113371887124]
視覚言語モデルの構成理解能力の測定によく用いられる17のベンチマークについて検討する。
我々は、データソースやキュレーション手順を含む設計上の選択について精査する。
ブラインドコンストラクションはCLIPモデルと同等に機能し、これらのベンチマークは構成的理解を効果的に測定していないことを示す。
論文 参考訳(メタデータ) (2025-06-09T20:53:43Z) - GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。
本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。
Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。