Fugu-MT 論文翻訳(概要): Distortions in Judged Spatial Relations in Large Language Models: The Dawn of Natural Language Geographic Data?

論文の概要: Distortions in Judged Spatial Relations in Large Language Models: The Dawn of Natural Language Geographic Data?

arxiv url: http://arxiv.org/abs/2401.04218v1
Date: Mon, 8 Jan 2024 20:08:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 18:36:34.396797
Title: Distortions in Judged Spatial Relations in Large Language Models: The Dawn of Natural Language Geographic Data?
Title（参考訳）: 大規模言語モデルにおける判断的空間関係の歪み--自然言語地理データの夜明けか?
Authors: Nir Fulman, Abdulkadir Memduho\u{g}lu, Alexander Zipf
Abstract要約: GPT-4は55.3%の精度で優れた性能を示し、GPT-3.5は47.3%、Llama-2は44.7%であった。これらの不正確さにもかかわらず、ほとんどの場合、モデルは最も近い基数方向を特定した。
参考スコア（独自算出の注目度）: 50.11601704574547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a benchmark for assessing the capability of Large Language Models (LLMs) to discern intercardinal directions between geographic locations and apply it to three prominent LLMs: GPT-3.5, GPT-4, and Llama-2. This benchmark specifically evaluates whether LLMs exhibit a hierarchical spatial bias similar to humans, where judgments about individual locations' spatial relationships are influenced by the perceived relationships of the larger groups that contain them. To investigate this, we formulated 14 questions focusing on well-known American cities. Seven questions were designed to challenge the LLMs with scenarios potentially influenced by the orientation of larger geographical units, such as states or countries, while the remaining seven targeted locations less susceptible to such hierarchical categorization. Among the tested models, GPT-4 exhibited superior performance with 55.3% accuracy, followed by GPT-3.5 at 47.3%, and Llama-2 at 44.7%. The models showed significantly reduced accuracy on tasks with suspected hierarchical bias. For example, GPT-4's accuracy dropped to 32.9% on these tasks, compared to 85.7% on others. Despite these inaccuracies, the models identified the nearest cardinal direction in most cases, suggesting associative learning, embodying human-like misconceptions. We discuss the potential of text-based data representing geographic relationships directly to improve the spatial reasoning capabilities of LLMs.
Abstract（参考訳）: GPT-3.5, GPT-4, そして Llama-2 の3つの著名な LLM に対して, 地理的位置間の心電図方向を識別する大規模言語モデル (LLM) の能力を評価するためのベンチマークを提案する。このベンチマークは、llmが人間に似た階層的空間バイアスを示すかどうかを特に評価し、それぞれの場所の空間的関係に関する判断は、それらを含む大きなグループの認識された関係に影響される。これを調べるために、アメリカのよく知られた都市に焦点を当てた14の質問を定式化した。 7つの質問は、国家や国のようなより大きな地理的単位の方向に影響される可能性があるシナリオでllmに挑戦するように設計され、残りの7つの場所はそのような階層的な分類の影響を受けにくい。 GPT-4は55.3%の精度で優れた性能を示し、GPT-3.5は47.3%、Llama-2は44.7%であった。モデルでは, 階層バイアスが疑われるタスクの精度が有意に低下した。例えば、GPT-4の精度はこれらのタスクで32.9%まで低下し、他のタスクでは85.7%に低下した。これらの不正確さにもかかわらず、モデルはほとんどのケースで最寄りの基数方向を特定し、人間のような誤解を具現化する連想学習を示唆した。 LLMの空間的推論能力を改善するために、地理的関係を直接表現するテキストベースのデータの可能性について議論する。

関連論文リスト

Obscured but Not Erased: Evaluating Nationality Bias in LLMs via Name-Based Bias Benchmarks [0.0]
大きな言語モデル(LLM)は、明示的な人口統計マーカーが存在しない場合でも、特定の国籍に対する潜在バイアスを示す。文化的に表象的な名前で明示的な国籍ラベルを置換することの影響を調査するために,新しい名称ベースのベンチマーク手法を導入する。私たちの実験では、小さなモデルの方が精度が低く、大きなモデルに比べてバイアスが大きいことが示されています。
論文参考訳（メタデータ） (2025-07-22T19:54:49Z)
Evaluating the Sensitivity of LLMs to Prior Context [2.377922603550519]
大規模言語モデル(LLM)は、多ターン対話やその他の持続的な対話シナリオにますます多くデプロイされている。我々は,文脈変化に対する感度を測定するために,先行文脈のボリュームと性質を変化させる新しいベンチマークのセットを導入する。その結果,複数質問に対するLLM性能は,多ターンインタラクションにおいて劇的に低下することがわかった。
論文参考訳（メタデータ） (2025-05-29T16:09:32Z)
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文参考訳（メタデータ） (2025-05-21T15:06:59Z)
Understanding Inequality of LLM Fact-Checking over Geographic Regions with Agent and Retrieval models [7.604241782666465]
オープンモデルとプライベートモデルの実際の精度を、さまざまな領域やシナリオで評価する。以上の結果から,グローバル・ノースの発言は,シナリオやLLMによらず,グローバル・サウスの発言よりも格段に優れていたことが判明した。
論文参考訳（メタデータ） (2025-03-28T21:07:43Z)
Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文参考訳（メタデータ） (2024-10-03T16:43:17Z)
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文参考訳（メタデータ） (2024-09-20T18:34:38Z)
Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。本課題における最先端の視覚言語モデル(VLM)の性能について検討する。本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文参考訳（メタデータ） (2024-09-15T16:45:42Z)
Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,新しいマルチタスク空間評価データセットを提案する。データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含む。この研究は、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
論文参考訳（メタデータ） (2024-08-26T17:25:16Z)
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。 GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文参考訳（メタデータ） (2024-07-05T12:30:02Z)
Large Language Models are Zero-Shot Next Location Predictors [4.315451628809687]
大規模言語モデル(LLM)は、優れた一般化と推論能力を示している。 LLMは最大36.2%の精度を得ることができ、人間の移動性に特化して設計された他のモデルに比べて640%近く改善されている。
論文参考訳（メタデータ） (2024-05-31T16:07:33Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
LM4OPT: Unveiling the Potential of Large Language Models in Formulating Mathematical Optimization Problems [0.0]
本研究は, GPT-3.5, GPT-4, Llama-2-7bを含む著名な大規模言語モデルをゼロショットおよびワンショット設定で比較した。以上の結果から,GPT-4は特にワンショットシナリオにおいて優れた性能を示した。
論文参考訳（メタデータ） (2024-03-02T23:32:33Z)
Split and Merge: Aligning Position Biases in Large Language Model based Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。 GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文参考訳（メタデータ） (2023-09-29T14:38:58Z)
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。 AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文参考訳（メタデータ） (2022-06-30T17:55:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。