論文の概要: Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study
- arxiv url: http://arxiv.org/abs/2408.14438v2
- Date: Wed, 28 Aug 2024 13:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 12:58:09.295748
- Title: Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study
- Title(参考訳): 空間課題における大規模言語モデルの評価:マルチタスクベンチマークによる検討
- Authors: Liuchang Xu, Shuo Zhao, Qingming Lin, Luyao Chen, Qianqian Luo, Sensen Wu, Xinyue Ye, Hailin Feng, Zhenhong Du,
- Abstract要約: 本研究では,新しいマルチタスク空間評価データセットを提案する。
データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含む。
この研究は、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
- 参考スコア(独自算出の注目度): 4.80612909282198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large language models such as ChatGPT, Gemini, and others has underscored the importance of evaluating their diverse capabilities, ranging from natural language understanding to code generation. However, their performance on spatial tasks has not been comprehensively assessed. This study addresses this gap by introducing a novel multi-task spatial evaluation dataset, designed to systematically explore and compare the performance of several advanced models on spatial tasks. The dataset encompasses twelve distinct task types, including spatial understanding and path planning, each with verified, accurate answers. We evaluated multiple models, including OpenAI's gpt-3.5-turbo, gpt-4o, and ZhipuAI's glm-4, through a two-phase testing approach. Initially, we conducted zero-shot testing, followed by categorizing the dataset by difficulty and performing prompt tuning tests. Results indicate that gpt-4o achieved the highest overall accuracy in the first phase, with an average of 71.3%. Although moonshot-v1-8k slightly underperformed overall, it surpassed gpt-4o in place name recognition tasks. The study also highlights the impact of prompt strategies on model performance in specific tasks. For example, the Chain-of-Thought (COT) strategy increased gpt-4o's accuracy in path planning from 12.4% to 87.5%, while a one-shot strategy enhanced moonshot-v1-8k's accuracy in mapping tasks from 10.1% to 76.3%.
- Abstract(参考訳): ChatGPTやGeminiといった大規模言語モデルの出現は、自然言語理解からコード生成まで、さまざまな能力を評価することの重要性を強調している。
しかし,空間的課題におけるそれらの性能は包括的に評価されていない。
本研究では,空間的タスクにおけるいくつかの高度なモデルの性能を体系的に探索し,比較するために設計された,新しいマルチタスク空間評価データセットを導入することで,このギャップに対処する。
データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含み、それぞれが検証された正確な答えを持っている。
2相試験により,OpenAIのgpt-3.5-turbo,gpt-4o,ZhipuAIのglm-4を含む複数のモデルを評価した。
最初はゼロショットテストを行い、続いてデータセットを難易度で分類し、迅速なチューニングテストを実行しました。
結果,gpt-4oは第1相において平均71.3%の総合的精度を示した。
ムーンショット-v1-8kは全体的に若干性能が劣ったが、地名認識タスクではgpt-4oを上回った。
調査はまた、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
例えば、Chain-of-Thought(COT)戦略では、経路計画におけるgpt-4oの精度が12.4%から87.5%に向上し、一方、1ショット戦略では、マッピングタスクにおけるv1-8kの精度が10.1%から76.3%に向上した。
関連論文リスト
- LLM4DS: Evaluating Large Language Models for Data Science Code Generation [0.0]
本稿では、Microsoft Copilot(GPT-4 Turbo)、ChatGPT(o1-preview)、Claude(3.5 Sonnet)、Perplexity Labs(Llama-3.1-70b-instruct)の4つの主要なAIアシスタントの性能を実証的に評価する。
すべてのモデルが50%の成功率を超え、ランダムなチャンスを超えた能力が確認された。
ChatGPTは様々な難易度で一貫した性能を示し、クロードの成功率はタスクの複雑さによって変動した。
論文 参考訳(メタデータ) (2024-11-16T18:43:26Z) - Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Correctness Comparison of ChatGPT-4, Gemini, Claude-3, and Copilot for Spatial Tasks [0.0]
本研究では、4つのチャットボットに割り当てられた7つのタスクカテゴリの76個の空間的タスクに対してゼロショットの正当性評価を行う。
チャットボットは、空間リテラシー、GIS理論、プログラミングコードと関数の解釈に関連するタスクでうまく機能したが、マッピング、コード記述、空間推論の弱点が明らかになった。
論文 参考訳(メタデータ) (2024-01-04T18:43:26Z) - Applying Large Language Models and Chain-of-Thought for Automatic
Scoring [23.076596289069506]
本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。
我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
論文 参考訳(メタデータ) (2023-11-30T21:22:43Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Data-Efficient Finetuning Using Cross-Task Nearest Neighbors [75.07773863013001]
我々は、ラベル付きターゲットタスクの例を用いて、プロンプトを付加したマルチタスクデータのプールから、最も類似したラベル付きサンプルを検索する。
マルチタスク近傍におけるファインタニングモデルのアプローチは,データ効率が著しく向上する。
論文 参考訳(メタデータ) (2022-12-01T00:53:04Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。
我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文 参考訳(メタデータ) (2021-07-10T02:43:16Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。