論文の概要: Distortions in Judged Spatial Relations in Large Language Models: The
Dawn of Natural Language Geographic Data?
- arxiv url: http://arxiv.org/abs/2401.04218v1
- Date: Mon, 8 Jan 2024 20:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:36:34.396797
- Title: Distortions in Judged Spatial Relations in Large Language Models: The
Dawn of Natural Language Geographic Data?
- Title(参考訳): 大規模言語モデルにおける判断的空間関係の歪み--自然言語地理データの夜明けか?
- Authors: Nir Fulman, Abdulkadir Memduho\u{g}lu, Alexander Zipf
- Abstract要約: GPT-4は55.3%の精度で優れた性能を示し、GPT-3.5は47.3%、Llama-2は44.7%であった。
これらの不正確さにもかかわらず、ほとんどの場合、モデルは最も近い基数方向を特定した。
- 参考スコア(独自算出の注目度): 50.11601704574547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a benchmark for assessing the capability of Large Language Models
(LLMs) to discern intercardinal directions between geographic locations and
apply it to three prominent LLMs: GPT-3.5, GPT-4, and Llama-2. This benchmark
specifically evaluates whether LLMs exhibit a hierarchical spatial bias similar
to humans, where judgments about individual locations' spatial relationships
are influenced by the perceived relationships of the larger groups that contain
them. To investigate this, we formulated 14 questions focusing on well-known
American cities. Seven questions were designed to challenge the LLMs with
scenarios potentially influenced by the orientation of larger geographical
units, such as states or countries, while the remaining seven targeted
locations less susceptible to such hierarchical categorization. Among the
tested models, GPT-4 exhibited superior performance with 55.3% accuracy,
followed by GPT-3.5 at 47.3%, and Llama-2 at 44.7%. The models showed
significantly reduced accuracy on tasks with suspected hierarchical bias. For
example, GPT-4's accuracy dropped to 32.9% on these tasks, compared to 85.7% on
others. Despite these inaccuracies, the models identified the nearest cardinal
direction in most cases, suggesting associative learning, embodying human-like
misconceptions. We discuss the potential of text-based data representing
geographic relationships directly to improve the spatial reasoning capabilities
of LLMs.
- Abstract(参考訳): GPT-3.5, GPT-4, そして Llama-2 の3つの著名な LLM に対して, 地理的位置間の心電図方向を識別する大規模言語モデル (LLM) の能力を評価するためのベンチマークを提案する。
このベンチマークは、llmが人間に似た階層的空間バイアスを示すかどうかを特に評価し、それぞれの場所の空間的関係に関する判断は、それらを含む大きなグループの認識された関係に影響される。
これを調べるために、アメリカのよく知られた都市に焦点を当てた14の質問を定式化した。
7つの質問は、国家や国のようなより大きな地理的単位の方向に影響される可能性があるシナリオでllmに挑戦するように設計され、残りの7つの場所はそのような階層的な分類の影響を受けにくい。
GPT-4は55.3%の精度で優れた性能を示し、GPT-3.5は47.3%、Llama-2は44.7%であった。
モデルでは, 階層バイアスが疑われるタスクの精度が有意に低下した。
例えば、GPT-4の精度はこれらのタスクで32.9%まで低下し、他のタスクでは85.7%に低下した。
これらの不正確さにもかかわらず、モデルはほとんどのケースで最寄りの基数方向を特定し、人間のような誤解を具現化する連想学習を示唆した。
LLMの空間的推論能力を改善するために、地理的関係を直接表現するテキストベースのデータの可能性について議論する。
関連論文リスト
- LM4OPT: Unveiling the Potential of Large Language Models in Formulating
Mathematical Optimization Problems [0.0]
本研究は, GPT-3.5, GPT-4, Llama-2-7bを含む著名な大規模言語モデルをゼロショットおよびワンショット設定で比較した。
以上の結果から,GPT-4は特にワンショットシナリオにおいて優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-02T23:32:33Z) - Large Language Models are Geographically Biased [51.37609528538606]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - Geographic and Geopolitical Biases of Language Models [43.62238334380897]
プレトレーニング言語モデル(PLM)における地理的バイアス(と知識)の研究手法を提案する。
以上の結果から, PLMの表現は, 国・国・国間の関連性の観点から, 物理的世界と驚くほどよく一致していることが示唆された。
最後に, 地理的近接性の概念を呈するにもかかわらず, PLMがいかに大きいかを説明する。
論文 参考訳(メタデータ) (2022-12-20T16:32:54Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - Jalisco's multiclass land cover analysis and classification using a
novel lightweight convnet with real-world multispectral and relief data [51.715517570634994]
本稿では、LC分類と解析を行うために、新しい軽量(89kパラメータのみ)畳み込みニューラルネットワーク(ConvNet)を提案する。
本研究では,実世界のオープンデータソースを3つ組み合わせて13のチャネルを得る。
組込み分析は、いくつかのクラスにおいて限られたパフォーマンスを期待し、最も類似したクラスをグループ化する機会を与えてくれます。
論文 参考訳(メタデータ) (2022-01-26T14:58:51Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。