論文の概要: Correctness Comparison of ChatGPT-4, Bard, Claude-2, and Copilot for
Spatial Tasks
- arxiv url: http://arxiv.org/abs/2401.02404v2
- Date: Fri, 5 Jan 2024 15:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 17:17:11.455134
- Title: Correctness Comparison of ChatGPT-4, Bard, Claude-2, and Copilot for
Spatial Tasks
- Title(参考訳): 空間課題に対するChatGPT-4, Bard, Claude-2, Copilotの精度比較
- Authors: Hartwig H. Hochmair and Levente Juhasz and Takoda Kemp
- Abstract要約: 本研究では、4つの著名なAIチャットボットに割り当てられた54の空間的タスクに対する応答の正しさを評価する。
ChatGPT-4は空間リテラシー、GIS理論、プログラミング言語と関数の解釈に優れていたが、マッピング、コード生成、コード翻訳の弱点が明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative AI including large language models (LLMs) have recently gained
significant interest in the geo-science community through its versatile
task-solving capabilities including coding, spatial computations, generation of
sample data, time-series forecasting, toponym recognition, or image
classification. So far, the assessment of LLMs for spatial tasks has primarily
focused on ChatGPT, arguably the most prominent AI chatbot, whereas other
chatbots received less attention. To narrow this research gap, this study
evaluates the correctness of responses for a set of 54 spatial tasks assigned
to four prominent chatbots, i.e., ChatGPT-4, Bard, Claude-2, and Copilot.
Overall, the chatbots performed well on spatial literacy, GIS theory, and
interpretation of programming code and given functions, but revealed weaknesses
in mapping, code generation, and code translation. ChatGPT-4 outperformed other
chatbots across most task categories.
- Abstract(参考訳): 大規模言語モデル(LLM)を含む生成AIは、コーディング、空間計算、サンプルデータの生成、時系列予測、トポニム認識、画像分類など、汎用的なタスク解決機能を通じて、最近、地球科学コミュニティにおいて大きな関心を集めている。
これまでのところ、空間的タスクに対するllmの評価は、おそらく最も著名なaiチャットボットであるchatgptに重点を置いているが、他のチャットボットはあまり注目されていない。
本研究では,4つのチャットボット,すなわちChatGPT-4,Bard,Claude-2,Copilotに割り当てられた54の空間的タスクに対する応答の正当性を評価する。
全体として、チャットボットは空間リテラシー、GIS理論、プログラミングコードと与えられた関数の解釈に優れていたが、マッピング、コード生成、コード翻訳の弱点が明らかになった。
ChatGPT-4は多くのタスクカテゴリで他のチャットボットを上回った。
関連論文リスト
- Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness [1.4932549821542682]
本研究では,ChatGPT,GPT4all,Dolly,Stanford Alpaca,Alpaca-LoRA,Falcon,Vicunaチャットボットのバイナリ分類および名前付きエンティティ認識タスクにおける性能について検討する。
バイナリ分類実験では、商業モデルとしてGPT-4が許容されるF1スコア0.94を達成し、オープンソースのGPT4allモデルはF1スコア0.90を達成した。
本研究は、OSINTバイナリ分類のためのチャットボットの能力を実証し、特別に訓練されたモデルを効果的に置き換えるために、NERをさらに改善する必要があることを示す。
論文 参考訳(メタデータ) (2024-01-26T13:15:24Z) - Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency
in coding algorithms and data structures [1.3124513975412255]
本稿では,ChatGPTが入力した問題に対する正しい解を生成する能力,コード品質,コードによってスローされる実行時エラーの性質を評価する。
この種の状況において、ChatGPTコードがいかに間違っているか、いくつかの洞察を得るために、パスされたテストケースのパターンを調べます。
論文 参考訳(メタデータ) (2023-07-10T08:20:34Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks [0.0]
また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。
ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
論文 参考訳(メタデータ) (2023-03-27T09:59:48Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。