論文の概要: Distortions in Judged Spatial Relations in Large Language Models: The
Dawn of Natural Language Geographic Data?
- arxiv url: http://arxiv.org/abs/2401.04218v1
- Date: Mon, 8 Jan 2024 20:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:36:34.396797
- Title: Distortions in Judged Spatial Relations in Large Language Models: The
Dawn of Natural Language Geographic Data?
- Title(参考訳): 大規模言語モデルにおける判断的空間関係の歪み--自然言語地理データの夜明けか?
- Authors: Nir Fulman, Abdulkadir Memduho\u{g}lu, Alexander Zipf
- Abstract要約: GPT-4は55.3%の精度で優れた性能を示し、GPT-3.5は47.3%、Llama-2は44.7%であった。
これらの不正確さにもかかわらず、ほとんどの場合、モデルは最も近い基数方向を特定した。
- 参考スコア(独自算出の注目度): 50.11601704574547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a benchmark for assessing the capability of Large Language Models
(LLMs) to discern intercardinal directions between geographic locations and
apply it to three prominent LLMs: GPT-3.5, GPT-4, and Llama-2. This benchmark
specifically evaluates whether LLMs exhibit a hierarchical spatial bias similar
to humans, where judgments about individual locations' spatial relationships
are influenced by the perceived relationships of the larger groups that contain
them. To investigate this, we formulated 14 questions focusing on well-known
American cities. Seven questions were designed to challenge the LLMs with
scenarios potentially influenced by the orientation of larger geographical
units, such as states or countries, while the remaining seven targeted
locations less susceptible to such hierarchical categorization. Among the
tested models, GPT-4 exhibited superior performance with 55.3% accuracy,
followed by GPT-3.5 at 47.3%, and Llama-2 at 44.7%. The models showed
significantly reduced accuracy on tasks with suspected hierarchical bias. For
example, GPT-4's accuracy dropped to 32.9% on these tasks, compared to 85.7% on
others. Despite these inaccuracies, the models identified the nearest cardinal
direction in most cases, suggesting associative learning, embodying human-like
misconceptions. We discuss the potential of text-based data representing
geographic relationships directly to improve the spatial reasoning capabilities
of LLMs.
- Abstract(参考訳): GPT-3.5, GPT-4, そして Llama-2 の3つの著名な LLM に対して, 地理的位置間の心電図方向を識別する大規模言語モデル (LLM) の能力を評価するためのベンチマークを提案する。
このベンチマークは、llmが人間に似た階層的空間バイアスを示すかどうかを特に評価し、それぞれの場所の空間的関係に関する判断は、それらを含む大きなグループの認識された関係に影響される。
これを調べるために、アメリカのよく知られた都市に焦点を当てた14の質問を定式化した。
7つの質問は、国家や国のようなより大きな地理的単位の方向に影響される可能性があるシナリオでllmに挑戦するように設計され、残りの7つの場所はそのような階層的な分類の影響を受けにくい。
GPT-4は55.3%の精度で優れた性能を示し、GPT-3.5は47.3%、Llama-2は44.7%であった。
モデルでは, 階層バイアスが疑われるタスクの精度が有意に低下した。
例えば、GPT-4の精度はこれらのタスクで32.9%まで低下し、他のタスクでは85.7%に低下した。
これらの不正確さにもかかわらず、モデルはほとんどのケースで最寄りの基数方向を特定し、人間のような誤解を具現化する連想学習を示唆した。
LLMの空間的推論能力を改善するために、地理的関係を直接表現するテキストベースのデータの可能性について議論する。
関連論文リスト
- Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Large Language Models are Zero-Shot Next Location Predictors [4.315451628809687]
大規模言語モデル(LLM)は、優れた一般化と推論能力を示している。
LLMは最大36.2%の精度を得ることができ、人間の移動性に特化して設計された他のモデルに比べて640%近く改善されている。
論文 参考訳(メタデータ) (2024-05-31T16:07:33Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - LM4OPT: Unveiling the Potential of Large Language Models in Formulating
Mathematical Optimization Problems [0.0]
本研究は, GPT-3.5, GPT-4, Llama-2-7bを含む著名な大規模言語モデルをゼロショットおよびワンショット設定で比較した。
以上の結果から,GPT-4は特にワンショットシナリオにおいて優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-02T23:32:33Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。