論文の概要: Exploring and Improving the Spatial Reasoning Abilities of Large
Language Models
- arxiv url: http://arxiv.org/abs/2312.01054v1
- Date: Sat, 2 Dec 2023 07:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 19:29:40.303864
- Title: Exploring and Improving the Spatial Reasoning Abilities of Large
Language Models
- Title(参考訳): 大規模言語モデルの空間推論能力の探索と改善
- Authors: Manasi Sharma
- Abstract要約: LLM(Large Language Models)は、シーケンスモデリングのツールである。
本稿では,ChatGPT-3.5,ChatGPT-4,Llama 2 7Bの3次元ロボット軌道データと対向する性能について検討する。
3Dトラジェクトリデータに33%の改善をもたらす新しいプレフィックスベースのプロンプト機構を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) represent formidable tools for sequence
modeling, boasting an innate capacity for general pattern recognition.
Nevertheless, their broader spatial reasoning capabilities, especially applied
to numerical trajectory data, remain insufficiently explored. In this paper, we
investigate the out-of-the-box performance of ChatGPT-3.5, ChatGPT-4 and Llama
2 7B models when confronted with 3D robotic trajectory data from the CALVIN
baseline and associated tasks, including 2D directional and shape labeling.
Additionally, we introduce a novel prefix-based prompting mechanism, which
yields a 33% improvement on the 3D trajectory data and an increase of up to 10%
on SpartQA tasks over zero-shot prompting (with gains for other prompting types
as well). The experimentation with 3D trajectory data offers an intriguing
glimpse into the manner in which LLMs engage with numerical and spatial
information, thus laying a solid foundation for the identification of target
areas for future enhancements.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的なパターン認識に固有の能力を持つシーケンスモデリングのツールである。
しかし、特に数値軌道データに適用されたより広い空間推論能力は、まだ十分に調査されていない。
本稿では,calvinベースラインからの3次元ロボット軌道データと2次元方向および形状ラベリングを含む関連課題と対向したchatgpt-3.5,chatgpt-4,llama 2 7bモデルの性能について検討する。
さらに,新たなプレフィックスベースプロンプト機構を導入することで,3d軌道データに対する33%の改善と,ゼロショットプロンプト(他のプロンプトタイプに対する向上)よりもspartqaタスクの最大10%の向上を実現している。
3d軌道データを用いた実験は、llmが数値的および空間的な情報を扱う方法の興味をそそられるものとなり、将来の拡張のためにターゲット領域を特定するための確かな基盤を築いている。
関連論文リスト
- Analyzing the impact of semantic LoD3 building models on image-based vehicle localization [0.1398098625978622]
本稿では,高精細なセマンティック3Dビルディングモデルに対応する画像特徴を活かして,カーローカライズのための新しいアプローチを提案する。
この研究は、レベル・オブ・ディテール2(LoD2)とレベル・オブ・ディテール3(LoD3)モデルを用いて結果を評価し、ファサードに富んだモデルの方が精度が高いかどうかを分析する。
論文 参考訳(メタデータ) (2024-07-31T08:33:41Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Point-DETR3D: Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection [32.86369670395974]
本稿では,弱半教師付き3D検出のための教師支援フレームワークであるPoint-DETR3Dを紹介する。
ラベル付きデータの5%しか持たないPoint-DETR3Dは、完全な教師付きデータのパフォーマンスを90%以上達成している。
論文 参考訳(メタデータ) (2024-03-22T16:11:29Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D Features [64.39691149255717]
3次元形状のキーポイント検出には意味的および幾何学的認識が必要である。
我々はキーポイント候補最適化モジュールを用いて,その形状上のキーポイントの平均分布を一致させる。
結果として得られたアプローチは、KeyPointNetデータセットで数ショットのキーポイント検出のための新しい状態を実現する。
論文 参考訳(メタデータ) (2023-11-29T21:58:41Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - Improving 3D Object Detection through Progressive Population Based
Augmentation [91.56261177665762]
本稿では3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化するための最初の試みを示す。
このアルゴリズムは,探索空間を狭め,過去の反復で発見された最良のパラメータを採用することで,拡張戦略の最適化を学習する。
PPBAは, 拡張のないベースライン3次元検出モデルよりも最大10倍のデータ効率が高く, ラベル付きモデルよりもはるかに少ない精度で3次元検出モデルが競合精度を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-02T05:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。