論文の概要: Inherent limitations of LLMs regarding spatial information
- arxiv url: http://arxiv.org/abs/2312.03042v1
- Date: Tue, 5 Dec 2023 16:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:16:48.506912
- Title: Inherent limitations of LLMs regarding spatial information
- Title(参考訳): 空間情報に関するllmの固有の制限
- Authors: He Yan, Xinyao Hu, Xiangpeng Wan, Chengyu Huang, Kai Zou, Shiqi Xu
- Abstract要約: 本稿では,空間推論やナビゲーション関連タスクにおけるChatGPTと類似モデルの性質的制約について検討する。
このデータセットは、空間点のプロット、二次元(2次元)空間での計画経路、三次元(3次元)環境における開発経路の3つの重要なタスクで構成されている。
評価の結果,空間的理解におけるモデルの能力と限界について重要な知見が得られた。
- 参考スコア(独自算出の注目度): 6.395912853122759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant advancements in natural language processing
capabilities demonstrated by large language models such as ChatGPT, their
proficiency in comprehending and processing spatial information, especially
within the domains of 2D and 3D route planning, remains notably underdeveloped.
This paper investigates the inherent limitations of ChatGPT and similar models
in spatial reasoning and navigation-related tasks, an area critical for
applications ranging from autonomous vehicle guidance to assistive technologies
for the visually impaired. In this paper, we introduce a novel evaluation
framework complemented by a baseline dataset, meticulously crafted for this
study. This dataset is structured around three key tasks: plotting spatial
points, planning routes in two-dimensional (2D) spaces, and devising pathways
in three-dimensional (3D) environments. We specifically developed this dataset
to assess the spatial reasoning abilities of ChatGPT. Our evaluation reveals
key insights into the model's capabilities and limitations in spatial
understanding.
- Abstract(参考訳): ChatGPTのような大規模言語モデルで実証された自然言語処理能力の著しい進歩にもかかわらず、特に2Dおよび3D経路計画領域における空間情報の理解と処理能力は明らかに未発達である。
本稿では、自律走行車案内から視覚障害者支援技術まで幅広い分野において重要な分野である、空間推論やナビゲーション関連タスクにおけるChatGPTと類似モデルの性質的限界について検討する。
本稿では,本研究に用いたベースラインデータセットを補完する新しい評価フレームワークを提案する。
このデータセットは、空間点のプロット、二次元(2次元)空間での計画経路、三次元(3次元)環境における開発経路の3つの重要なタスクで構成されている。
chatgptの空間的推論能力を評価するために,このデータセットを特別に開発した。
評価の結果、モデルの能力と空間理解の限界に関する重要な知見が明らかになった。
関連論文リスト
- SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Indoor and Outdoor 3D Scene Graph Generation via Language-Enabled Spatial Ontologies [16.396336068724484]
本稿では,任意の屋内環境と屋外環境に3次元シーングラフを構築する手法を提案する。
屋外環境を記述する概念の階層構造は、屋内よりも複雑である。
トレーニングデータの欠如は、屋内環境で使用される学習ベースのツールの直接的な適用を妨げる。
論文 参考訳(メタデータ) (2023-12-18T21:20:28Z) - Exploring and Improving the Spatial Reasoning Abilities of Large
Language Models [0.0]
LLM(Large Language Models)は、シーケンスモデリングのツールである。
本稿では,ChatGPT-3.5,ChatGPT-4,Llama 2 7Bの3次元ロボット軌道データと対向する性能について検討する。
3Dトラジェクトリデータに33%の改善をもたらす新しいプレフィックスベースのプロンプト機構を導入する。
論文 参考訳(メタデータ) (2023-12-02T07:41:46Z) - X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth
Estimation with Cross-Task Distillation and Boundary Correction [9.215384107659665]
X-PDNetは平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークである。
我々は、境界回帰損失を増大させるために、基底真理境界を用いることの現在の限界を強調した。
境界領域分割を支援するために深度情報を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T14:27:54Z) - Explore In-Context Learning for 3D Point Cloud Understanding [71.20912026561484]
我々は,特に3Dポイントクラウドにおけるコンテキスト内学習のために設計された,ポイント・イン・コンテキストという新しいフレームワークを紹介した。
一般点サンプリング演算子とタンデムで協調して動作するように慎重に設計したJoint Smplingモジュールを提案する。
提案手法の汎用性と適応性を検証するため,幅広いタスクを扱うための広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-14T17:53:21Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Geometry-Aware Network for Domain Adaptive Semantic Segmentation [64.00345743710653]
本稿では,ドメイン間のギャップを小さくするために,ドメイン適応のための幾何学的ネットワーク(GANDA)を提案する。
我々は、RGB-D画像から生成された点雲上の3Dトポロジを利用して、対象領域における座標色歪みと擬似ラベルの微細化を行う。
我々のモデルは,GTA5->CityscapesとSynTHIA->Cityscapesの最先端技術より優れている。
論文 参考訳(メタデータ) (2022-12-02T00:48:44Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Walk2Map: Extracting Floor Plans from Indoor Walk Trajectories [23.314557741879664]
室内を歩く人の軌跡からフロアプランを生成するデータ駆動型アプローチであるWalk2Mapを紹介します。
データ駆動慣性オドメトリーの進歩により、そのような最小限の入力データは、コンシューマレベルのスマートフォンのIMU読み取りから得ることができる。
スキャンした3d屋内モデルを用いてネットワークをトレーニングし、屋内歩行軌跡にカスケードな方法で適用する。
論文 参考訳(メタデータ) (2021-02-27T16:29:09Z) - Improving Monocular Depth Estimation by Leveraging Structural Awareness
and Complementary Datasets [21.703238902823937]
視覚特徴の空間的関係を利用するために,空間的注意ブロックを有する構造認識ニューラルネットワークを提案する。
第2に,一様点対に対する大域的局所的相対損失を導入し,予測における空間的制約を増大させる。
第3に、先行手法の障害事例の分析に基づいて、挑戦シーンの新たなHard Case (HC) Depthデータセットを収集します。
論文 参考訳(メタデータ) (2020-07-22T08:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。