論文の概要: Distortions in Judged Spatial Relations in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.04218v2
- Date: Tue, 4 Jun 2024 12:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:27:48.831897
- Title: Distortions in Judged Spatial Relations in Large Language Models
- Title(参考訳): 大規模言語モデルにおける判断空間関係の歪み
- Authors: Nir Fulman, Abdulkadir Memduhoğlu, Alexander Zipf,
- Abstract要約: GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
- 参考スコア(独自算出の注目度): 45.875801135769585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a benchmark for assessing the capability of Large Language Models (LLMs) to discern intercardinal directions between geographic locations and apply it to three prominent LLMs: GPT-3.5, GPT-4, and Llama-2. This benchmark specifically evaluates whether LLMs exhibit a hierarchical spatial bias similar to humans, where judgments about individual locations' spatial relationships are influenced by the perceived relationships of the larger groups that contain them. To investigate this, we formulated 14 questions focusing on well-known American cities. Seven questions were designed to challenge the LLMs with scenarios potentially influenced by the orientation of larger geographical units, such as states or countries, while the remaining seven targeted locations were less susceptible to such hierarchical categorization. Among the tested models, GPT-4 exhibited superior performance with 55 percent accuracy, followed by GPT-3.5 at 47 percent, and Llama-2 at 45 percent. The models showed significantly reduced accuracy on tasks with suspected hierarchical bias. For example, GPT-4's accuracy dropped to 33 percent on these tasks, compared to 86 percent on others. However, the models identified the nearest cardinal direction in most cases, reflecting their associative learning mechanism, thereby embodying human-like misconceptions. We discuss avenues for improving the spatial reasoning capabilities of LLMs.
- Abstract(参考訳): GPT-3.5, GPT-4, そして Llama-2 の3つの著名な LLM に対して, 地理的位置間の心電図方向を識別する大規模言語モデル (LLM) の能力を評価するためのベンチマークを提案する。
このベンチマークは、LLMが人間と類似した階層的な空間バイアスを示すかどうかを特に評価し、個々の位置の空間的関係に関する判断は、それらを含む大きなグループの知覚的な関係に影響される。
これを調べるために、よく知られたアメリカの都市に焦点を当てた14の質問を定式化した。
7つの質問は、国家や国のようなより大きな地理的単位の向きに影響される可能性のあるシナリオでLLMに挑戦するために設計された。
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
これらのモデルでは,階層的バイアスが疑われるタスクに対して有意に精度が低下した。
例えば、GPT-4の精度はこれらのタスクで33%まで低下し、他のタスクでは86%に低下した。
しかし、これらのモデルでは、ほとんどの場合において最も近い基数方向を識別し、その連想学習機構を反映し、人間のような誤解を具現化している。
LLMの空間的推論能力を改善するための方法について議論する。
関連論文リスト
- Large Language Models are Zero-Shot Next Location Predictors [4.315451628809687]
大規模言語モデル(LLM)は、ゼロショットの次位置予測器として機能する。
LLMの精度は32.4%までで、洗練されたDLモデルに比べて600%以上向上している。
本稿では,データ汚染を検査する他の研究に触発された枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:07:33Z) - Measuring Geographic Diversity of Foundation Models with a Natural Language--based Geo-guessing Experiment on GPT-4 [5.534517268996598]
我々は,その地理的多様性を研究するために,多モーダル大言語モデルファミリーの最先端の代表である GPT-4 について検討した。
自然言語によるジオゲスティング実験では,DBpedia の抽象表現を基礎構造コーパスとして用いて,GPT-4 が現在,いくつかの地理的特徴型について不十分な知識をコード化している可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-11T09:59:21Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - LM4OPT: Unveiling the Potential of Large Language Models in Formulating
Mathematical Optimization Problems [0.0]
本研究は, GPT-3.5, GPT-4, Llama-2-7bを含む著名な大規模言語モデルをゼロショットおよびワンショット設定で比較した。
以上の結果から,GPT-4は特にワンショットシナリオにおいて優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-02T23:32:33Z) - Large Language Models are Geographically Biased [51.37609528538606]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation [92.5132418788568]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
1) 幻覚率, 解答の幻覚傾向, 解答が非関連部分集合の通路に存在しない場合, および(ii) 誤差率, モデル不正確さを測定し, 関連する部分集合の通路を認識する。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。