Fugu-MT 論文翻訳(概要): Evaluating Spatial Understanding of Large Language Models

論文の概要: Evaluating Spatial Understanding of Large Language Models

arxiv url: http://arxiv.org/abs/2310.14540v1
Date: Mon, 23 Oct 2023 03:44:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 22:50:55.127053
Title: Evaluating Spatial Understanding of Large Language Models
Title（参考訳）: 大規模言語モデルの空間理解の評価
Authors: Yutaro Yamada, Yihan Bao, Andrew K. Lampinen, Jungo Kasai, Ilker Yildirim
Abstract要約: 大規模言語モデルが空間構造を表現・推論できることを示す。人間と同様に、LLMは空間地図を維持するためにランドマークとしてオブジェクト名を使用する。
参考スコア（独自算出の注目度）: 28.362238777371196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) show remarkable capabilities across a variety of tasks. Despite the models only seeing text in training, several recent studies suggest that LLM representations implicitly capture aspects of the underlying grounded concepts. Here, we explore LLM representations of a particularly salient kind of grounded knowledge -- spatial relationships. We design natural-language navigation tasks and evaluate the ability of LLMs, in particular GPT-3.5-turbo, GPT-4, and Llama2 series models, to represent and reason about spatial structures, and compare these abilities to human performance on the same tasks. These tasks reveal substantial variability in LLM performance across different spatial structures, including square, hexagonal, and triangular grids, rings, and trees. We also discover that, similar to humans, LLMs utilize object names as landmarks for maintaining spatial maps. Finally, in extensive error analysis, we find that LLMs' mistakes reflect both spatial and non-spatial factors. These findings suggest that LLMs appear to capture certain aspects of spatial structure implicitly, but room for improvement remains.
Abstract（参考訳）: 大きな言語モデル(LLM)は、様々なタスクにまたがる優れた機能を示している。トレーニング中のテキストのみを見るモデルにもかかわらず、最近のいくつかの研究は、LLM表現が基礎となる基礎概念の側面を暗黙的に捉えていることを示唆している。本稿では,空間的関係という,特に健全な知識のLLM表現について考察する。自然言語ナビゲーションタスクを設計,llm,特にgpt-3.5-turbo,gpt-4,llama2シリーズモデルを用いて空間構造を表現・推論し,同じタスクにおける人間のパフォーマンスと比較する。これらのタスクは、正方形、六角形、三角形の格子、環、木など、異なる空間構造におけるLLM性能のかなりのばらつきを示す。また、LLMは人間と同様、空間地図の保存のためのランドマークとしてオブジェクト名を利用する。最後に,LLMの誤りは空間的要因と非空間的要因の両方を反映していることが判明した。これらのことから, LLMは空間構造の特定の側面を暗黙的に捉えているように見えるが, 改善の余地は残されている。

関連論文リスト

SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文参考訳（メタデータ） (2025-11-21T15:24:33Z)
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards [37.39035418889281]
構造的空間接地と多段階推論を統合するためにRLで訓練された3D対応MLLMであるSpatialThinkerを紹介する。このモデルは,タスク関連オブジェクトと空間関係のシーングラフを構築し,密集した空間報酬による回答への推論を行うことにより,人間のような空間知覚をシミュレートする。
論文参考訳（メタデータ） (2025-11-10T18:52:47Z)
Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture [16.15618237704827]
データと建築の両面から空間的理解を体系的に分析する。データの観点からは、トレーニングデータが増加するにつれて空間理解の性能は急速に収束する。アーキテクチャの観点からは、空間的理解は言語モデルよりも視覚エンコーダ内の位置エンコーダに大きく依存していることが分かる。
論文参考訳（メタデータ） (2025-09-02T14:22:43Z)
FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [78.65988445433844]
FloorplanQAは、大規模言語モデルにおける空間的推論を評価するための診断ベンチマークである。このベンチマークでは、距離測定、可視性、経路探索、制約空間内のオブジェクト配置など、中核的な空間的タスクをカバーしている。
論文参考訳（メタデータ） (2025-07-10T11:16:48Z)
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。既存のMLLMは3次元空間認識と理解能力を持っているか?
論文参考訳（メタデータ） (2025-05-22T17:59:03Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文参考訳（メタデータ） (2024-06-19T06:15:26Z)
SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は生物学的と人工知能の両方において重要な要素です本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文参考訳（メタデータ） (2024-06-07T01:06:34Z)
Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。 LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文参考訳（メタデータ） (2024-05-10T11:44:05Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models [28.819559978685806]
大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。構成的幾何学的問題解決におけるLLMの能力について検討する。我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの分野で直面している顕著な課題を明らかにします。
論文参考訳（メタデータ） (2024-02-06T10:37:21Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
Prompting Large Language Models for Counterfactual Generation: An Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-24T06:44:32Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。