論文の概要: Evaluating Spatial Understanding of Large Language Models
- arxiv url: http://arxiv.org/abs/2310.14540v1
- Date: Mon, 23 Oct 2023 03:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 22:50:55.127053
- Title: Evaluating Spatial Understanding of Large Language Models
- Title(参考訳): 大規模言語モデルの空間理解の評価
- Authors: Yutaro Yamada, Yihan Bao, Andrew K. Lampinen, Jungo Kasai, Ilker
Yildirim
- Abstract要約: 大規模言語モデルが空間構造を表現・推論できることを示す。
人間と同様に、LLMは空間地図を維持するためにランドマークとしてオブジェクト名を使用する。
- 参考スコア(独自算出の注目度): 28.362238777371196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) show remarkable capabilities across a variety of
tasks. Despite the models only seeing text in training, several recent studies
suggest that LLM representations implicitly capture aspects of the underlying
grounded concepts. Here, we explore LLM representations of a particularly
salient kind of grounded knowledge -- spatial relationships. We design
natural-language navigation tasks and evaluate the ability of LLMs, in
particular GPT-3.5-turbo, GPT-4, and Llama2 series models, to represent and
reason about spatial structures, and compare these abilities to human
performance on the same tasks. These tasks reveal substantial variability in
LLM performance across different spatial structures, including square,
hexagonal, and triangular grids, rings, and trees. We also discover that,
similar to humans, LLMs utilize object names as landmarks for maintaining
spatial maps. Finally, in extensive error analysis, we find that LLMs' mistakes
reflect both spatial and non-spatial factors. These findings suggest that LLMs
appear to capture certain aspects of spatial structure implicitly, but room for
improvement remains.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なタスクにまたがる優れた機能を示している。
トレーニング中のテキストのみを見るモデルにもかかわらず、最近のいくつかの研究は、LLM表現が基礎となる基礎概念の側面を暗黙的に捉えていることを示唆している。
本稿では,空間的関係という,特に健全な知識のLLM表現について考察する。
自然言語ナビゲーションタスクを設計,llm,特にgpt-3.5-turbo,gpt-4,llama2シリーズモデルを用いて空間構造を表現・推論し,同じタスクにおける人間のパフォーマンスと比較する。
これらのタスクは、正方形、六角形、三角形の格子、環、木など、異なる空間構造におけるLLM性能のかなりのばらつきを示す。
また、LLMは人間と同様、空間地図の保存のためのランドマークとしてオブジェクト名を利用する。
最後に,LLMの誤りは空間的要因と非空間的要因の両方を反映していることが判明した。
これらのことから, LLMは空間構造の特定の側面を暗黙的に捉えているように見えるが, 改善の余地は残されている。
関連論文リスト
- Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Unveiling Linguistic Regions in Large Language Models [52.88954646359624]
大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
本稿では,LLMの言語能力に関するいくつかの調査を行う。
論文 参考訳(メタデータ) (2024-02-22T16:56:13Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large
Language Models [28.819559978685806]
大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。
構成的幾何学的問題解決におけるLLMの能力について検討する。
我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの分野で直面している顕著な課題を明らかにします。
論文 参考訳(メタデータ) (2024-02-06T10:37:21Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Can Large Language Models Understand Content and Propagation for
Misinformation Detection: An Empirical Study [26.023148371263012]
大きな言語モデル(LLM)は、自然言語の理解と推論における強力な能力に対して大きな注目を集めている。
本研究では,誤情報検出タスクにおけるLCMの性能について,総合的研究を行った。
論文 参考訳(メタデータ) (2023-11-21T16:03:51Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。