論文の概要: SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.04566v1
- Date: Fri, 7 Jun 2024 01:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:48:53.540225
- Title: SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models
- Title(参考訳): SpaRCとSpaRP:大言語モデルの空間推論能力理解のための空間推論特性と経路生成
- Authors: Md Imbesat Hassan Rizvi, Xiaodan Zhu, Iryna Gurevych,
- Abstract要約: 空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
- 参考スコア(独自算出の注目度): 70.01883340129204
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spatial reasoning is a crucial component of both biological and artificial intelligence. In this work, we present a comprehensive study of the capability of current state-of-the-art large language models (LLMs) on spatial reasoning. To support our study, we created and contribute a novel Spatial Reasoning Characterization (SpaRC) framework and Spatial Reasoning Paths (SpaRP) datasets, to enable an in-depth understanding of the spatial relations and compositions as well as the usefulness of spatial reasoning chains. We found that all the state-of-the-art LLMs do not perform well on the datasets -- their performances are consistently low across different setups. The spatial reasoning capability improves substantially as model sizes scale up. Finetuning both large language models (e.g., Llama-2-70B) and smaller ones (e.g., Llama-2-13B) can significantly improve their F1-scores by 7--32 absolute points. We also found that the top proprietary LLMs still significantly outperform their open-source counterparts in topological spatial understanding and reasoning.
- Abstract(参考訳): 空間推論は、生物学的および人工知能の両方において重要な要素である。
本研究では,現在最先端の大規模言語モデル(LLM)の空間的推論能力について包括的に研究する。
本研究では,空間的関係や構成の深い理解と,空間的推論連鎖の有用性を実現するために,空間的推論特性(SpaRC)フレームワークと空間的推論経路(SpaRP)データセットを作成した。
私たちは、最先端のLLMはすべてデータセットでうまく機能しないことに気付きました。
空間推論能力はモデルのサイズが大きくなるにつれて大幅に向上する。
大型言語モデル(例えばLlama-2-70B)と小型言語(例えばLlama-2-13B)の両方を微調整することで、F1スコアを7-32絶対点で大幅に改善することができる。
また、トッププロプライエタリなLLMは、トポロジカルな空間的理解と推論において、オープンソースよりもはるかに優れています。
関連論文リスト
- SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning [42.487500113839666]
視覚言語モデル(VLM)の空間的推論能力を高める新しい手法を提案する。
提案手法は,空間座標二方向アライメントとチェーン・オブ・ザ・スペース・グラウンドリングの2段階からなる。
シミュレーションと実環境設定の両方において,ナビゲーションタスクと操作タスクに挑戦する手法を評価する。
論文 参考訳(メタデータ) (2025-01-17T09:46:27Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
これらの結果は、既存のモデルにおいて重要な盲点を明らかにし、より高度な空間推論技術の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning [19.399925987942204]
視覚言語モデル (VLM) は、幅広い下流タスクにおいて印象的なパフォーマンスを示している。
評価の結果, 現状のVLMは複合空間推論問題に対して, しばしば不確実かつ不正確な応答を生じさせることが判明した。
そこで本研究では,基本空間能力のみに基づいてモデルをトレーニングすることにより,VLM内の2次元空間推論を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - More than Correlation: Do Large Language Models Learn Causal
Representations of Space? [6.293100288400849]
本研究では,大規模言語モデルにおける空間表現の因果関係を明らかにすることに焦点を当てた。
実験の結果,空間表現が次の単語予測におけるモデルの性能に影響を与え,地理空間情報に依存する下流課題が示された。
論文 参考訳(メタデータ) (2023-12-26T01:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。