論文の概要: Around the World in 24 Hours: Probing LLM Knowledge of Time and Place
- arxiv url: http://arxiv.org/abs/2506.03984v1
- Date: Wed, 04 Jun 2025 14:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.371071
- Title: Around the World in 24 Hours: Probing LLM Knowledge of Time and Place
- Title(参考訳): LLMの時間と場所に関する知識を24時間で探す
- Authors: Carolin Holtermann, Paul Röttger, Anne Lauscher,
- Abstract要約: 本稿では,言語モデルが時間と空間とともに共同で推論できる能力について,初めて評価する。
時間的および地理的知識の異なる組み合わせに対して、3つの異なるモデルファミリーの8つのオープンチャットモデルを評価する。
特定の地理的領域と性能の明確な相関関係は見つからない。
- 参考スコア(独自算出の注目度): 18.17538075862074
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reasoning over time and space is essential for understanding our world. However, the abilities of language models in this area are largely unexplored as previous work has tested their abilities for logical reasoning in terms of time and space in isolation or only in simple or artificial environments. In this paper, we present the first evaluation of the ability of language models to jointly reason over time and space. To enable our analysis, we create GeoTemp, a dataset of 320k prompts covering 289 cities in 217 countries and 37 time zones. Using GeoTemp, we evaluate eight open chat models of three different model families for different combinations of temporal and geographic knowledge. We find that most models perform well on reasoning tasks involving only temporal knowledge and that overall performance improves with scale. However, performance remains constrained in tasks that require connecting temporal and geographical information. We do not find clear correlations of performance with specific geographic regions. Instead, we find a significant performance increase for location names with low model perplexity, suggesting their repeated occurrence during model training. We further demonstrate that their performance is heavily influenced by prompt formulation - a direct injection of geographical knowledge leads to performance gains, whereas, surprisingly, techniques like chain-of-thought prompting decrease performance on simpler tasks.
- Abstract(参考訳): 時間と空間を通じて推論することは、私たちの世界を理解するのに不可欠です。
しかし、この領域における言語モデルの能力は、前回の研究では、時間と空間を分離したり、単純な環境や人工的な環境でのみ、論理的推論の能力をテストするため、ほとんど解明されていない。
本稿では,言語モデルの時間的・空間的共同推論能力について,初めて評価する。
GeoTempは、217か国289の都市と37のタイムゾーンをカバーする320kプロンプトのデータセットです。
GeoTempを用いて、時間的および地理的知識の異なる組み合わせに対して、3つの異なるモデルファミリーの8つのオープンチャットモデルを評価する。
ほとんどのモデルは時間的知識のみを含む推論タスクでうまく機能し、全体的なパフォーマンスはスケールで向上する。
しかし、時間的情報と地理的情報を繋ぐ必要のあるタスクでは、パフォーマンスは依然として制限されている。
特定の地理的領域と性能の明確な相関関係は見つからない。
その代わりに、モデルの難易度が低い場所名に対して顕著な性能向上が見られ、モデルのトレーニング中に繰り返し発生することが示唆された。
地理的知識を直接注入することで、パフォーマンスが向上する一方、驚くほど、チェーンオブ思考のような技術は、単純なタスクのパフォーマンスを低下させる。
関連論文リスト
- GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [11.704082783192467]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - Geospatial Mechanistic Interpretability of Large Language Models [6.0272491755196045]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる前例のない機能を示している。
我々の目的は、これらの複雑なモデルが地理的情報を処理しながら生成する内部表現の理解を深めることである。
論文 参考訳(メタデータ) (2025-05-06T09:40:06Z) - TiEBe: Tracking Language Model Recall of Notable Worldwide Events Through Time [9.745912505259312]
グローバルなイベントと地域的なイベントを中心に,23,000以上の質問応答ペアからなるデータセットであるTiEBeを提示する。
これらのイベントは、LLMのグローバルおよび地域開発に対する理解を評価するためのベンチマークを構築するために使用される。
以上の結果から,よりバランスの取れたグローバル表現の必要性を強調した。
論文 参考訳(メタデータ) (2025-01-13T16:58:32Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Causal Representation Learning in Temporal Data via Single-Parent Decoding [66.34294989334728]
科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。
科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。
そこで本研究では,単一親の復号化による因果発見法を提案し,その上で下位の潜伏者と因果グラフを同時に学習する。
論文 参考訳(メタデータ) (2024-10-09T15:57:50Z) - Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを提示します。
私たちの仕事は、タイムアウェアな言語モデルを進めるための重要なステップを提供します。
論文 参考訳(メタデータ) (2024-09-20T08:57:20Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - Geographic Adaptation of Pretrained Language Models [29.81557992080902]
マルチタスク学習環境において,言語モデリングと位置情報予測を併用する中間学習ステップであるジオアダプテーションを導入する。
ジオアダプテーションの有効性は、事前訓練された言語モデルの表現空間を地理的に再現する能力に起因していることを示す。
論文 参考訳(メタデータ) (2022-03-16T11:55:00Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。