論文の概要: LocalBench: Benchmarking LLMs on County-Level Local Knowledge and Reasoning
- arxiv url: http://arxiv.org/abs/2511.10459v2
- Date: Mon, 17 Nov 2025 19:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.587324
- Title: LocalBench: Benchmarking LLMs on County-Level Local Knowledge and Reasoning
- Title(参考訳): LocalBench: 郡レベルのローカル知識と推論に基づくLLMのベンチマーク
- Authors: Zihan Gao, Yifei Xu, Jacob Thebault-Spieker,
- Abstract要約: 大規模言語モデル (LLM) は, マクロな地理的タスクにおいて広く評価されてきたが, 超局所的な知識を扱う能力はいまだによく理解されていない。
アメリカ合衆国全体での郡レベルの地域知識に基づいてLSMを評価するために設計された最初のベンチマークであるLocalBenchを紹介する。
LocalBenchを用いて、クローズドブックとWeb拡張設定の両方で、13の最先端LCMを評価した。
- 参考スコア(独自算出の注目度): 9.319308493696893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been widely evaluated on macro-scale geographic tasks, such as global factual recall, event summarization, and regional reasoning. Yet, their ability to handle hyper-local knowledge remains poorly understood. This gap is increasingly consequential as real-world applications, from civic platforms to community journalism, demand AI systems that can reason about neighborhood-specific dynamics, cultural narratives, and local governance. Existing benchmarks fall short in capturing this complexity, often relying on coarse-grained data or isolated references. We present LocalBench, the first benchmark designed to systematically evaluate LLMs on county-level local knowledge across the United States. Grounded in the Localness Conceptual Framework, LocalBench includes 14,782 validated question-answer pairs across 526 U.S. counties in 49 states, integrating diverse sources such as Census statistics, local subreddit discourse, and regional news. It spans physical, cognitive, and relational dimensions of locality. Using LocalBench, we evaluate 13 state-of-the-art LLMs under both closed-book and web-augmented settings. Our findings reveal critical limitations: even the best-performing models reach only 56.8% accuracy on narrative-style questions and perform below 15.5% on numerical reasoning. Moreover, larger model size and web augmentation do not guarantee better performance, for example, search improves Gemini's accuracy by +13.6%, but reduces GPT-series performance by -11.4%. These results underscore the urgent need for language models that can support equitable, place-aware AI systems: capable of engaging with the diverse, fine-grained realities of local communities across geographic and cultural contexts.
- Abstract(参考訳): 大規模言語モデル (LLM) は, グローバルな事実リコール, イベント要約, 地域推論など, マクロ規模の地理的タスクにおいて広く評価されてきた。
しかし、超局所的な知識を扱う能力はいまだに理解されていない。
このギャップは、市民プラットフォームからコミュニティジャーナリズムまで、地域固有のダイナミクス、文化的な物語、地方統治を推論できるAIシステムを要求する、現実世界のアプリケーションとしてますます重要になっている。
既存のベンチマークは、しばしば粗い粒度のデータや孤立した参照に依存するため、この複雑さを捉えるのに不足している。
アメリカ合衆国全体での郡レベルの地域知識に基づいてLSMを体系的に評価するための最初のベンチマークであるLocalBenchを提示する。
Localness Conceptual Frameworkに拠れば、49州の526郡にまたがる14,782の検証済み質問応答ペアが含まれており、国勢調査統計、地方住民の談話、地域ニュースなどの多様な情報源を統合している。
局所性の物理的、認知的、関係的な次元にまたがる。
LocalBenchを用いて、クローズドブックとWeb拡張設定の両方で、13の最先端LCMを評価した。
もっとも優れたモデルでさえ、物語スタイルの質問では56.8%の精度しか得られず、数値推論では15.5%以下である。
さらに、より大きなモデルサイズとWebの拡張は、例えば検索によってジェミニの精度は+13.6%向上するが、GPTシリーズの性能は-11.4%低下する。
これらの結果は、地理的、文化的な文脈にまたがって、地域社会の多様できめ細かな現実と関わり得る、公平で場所対応のAIシステムをサポートする言語モデルに対する緊急の必要性を浮き彫りにしている。
関連論文リスト
- Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - NativQA Framework: Enabling LLMs with Native, Local, and Everyday Knowledge [11.430887334254422]
本研究では,大規模,文化的,地域的に整合したQAデータセットをネイティブ言語でシームレスに構築できるNativQAフレームワークを提案する。
このフレームワークは24か国と7か国で39か所で評価され、300万以上の質問応答対が得られた。
論文 参考訳(メタデータ) (2025-04-08T13:01:51Z) - Understanding Inequality of LLM Fact-Checking over Geographic Regions with Agent and Retrieval models [7.604241782666465]
オープンモデルとプライベートモデルの実際の精度を、さまざまな領域やシナリオで評価する。
以上の結果から,グローバル・ノースの発言は,シナリオやLLMによらず,グローバル・サウスの発言よりも格段に優れていたことが判明した。
論文 参考訳(メタデータ) (2025-03-28T21:07:43Z) - TiEBe: Tracking Language Model Recall of Notable Worldwide Events Through Time [9.745912505259312]
グローバルなイベントと地域的なイベントを中心に,23,000以上の質問応答ペアからなるデータセットであるTiEBeを提示する。
これらのイベントは、LLMのグローバルおよび地域開発に対する理解を評価するためのベンチマークを構築するために使用される。
以上の結果から,よりバランスの取れたグローバル表現の必要性を強調した。
論文 参考訳(メタデータ) (2025-01-13T16:58:32Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Enhancing Prototypical Few-Shot Learning by Leveraging the Local-Level
Strategy [75.63022284445945]
既存の作業では、ローカルレベルの機能をすべて混ぜることで、イメージレベルの機能に基づいた、いくつかのショットモデルを構築することがよくあります。
a) 基地と新規カテゴリーの識別的位置バイアスを回避するための地域非依存のトレーニング戦略,(b) 地域レベルの特徴の正確な比較を捉えるための新しい地域レベルの類似度尺度を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:45:15Z) - Capturing Structural Locality in Non-parametric Language Models [85.94669097485992]
非パラメトリック言語モデルに局所性情報を追加するための,単純かつ効果的なアプローチを提案する。
Javaソースコードとウィキペディアテキストという2つの異なる領域の実験では、局所性がモデルの有効性を向上させることが示されている。
論文 参考訳(メタデータ) (2021-10-06T15:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。