Fugu-MT 論文翻訳(概要): Assessing AI Chatbots Performance in Comprehensive Standardized Test Preparation; A Case Study with GRE

論文の概要: Assessing AI Chatbots Performance in Comprehensive Standardized Test Preparation; A Case Study with GRE

arxiv url: http://arxiv.org/abs/2312.03719v1
Date: Sun, 26 Nov 2023 05:27:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 03:21:42.255676
Title: Assessing AI Chatbots Performance in Comprehensive Standardized Test Preparation; A Case Study with GRE
Title（参考訳）: 総合標準化試験におけるAIチャットボットの性能評価 : GREを用いた事例
Authors: Mohammad Abu-Haifa, Bara'a Etawi, Huthaifa Alkhatatbeh, and Ayman Ababneh
Abstract要約: 本稿では,Bing,ChatGPT,GPT-4の3つの人工知能チャットボットの性能を総合的に評価する。チャットボットの能力を評価するために,多種多様なスタイルと157の言語質問を含む137の量的推論質問が実施された。 GPT-4は、特に複雑な言語理解タスクにおいて最も熟練した言語として登場した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research paper presents a comprehensive evaluation of the performance of three artificial 10 intelligence chatbots: Bing, ChatGPT, and GPT-4, in addressing standardized test questions. Graduate record examination, known as GRE, serves as a case study in this paper, encompassing both quantitative reasoning and verbal skills. A total of 137 quantitative reasoning questions, featuring diverse styles and 157 verbal questions categorized into varying levels of difficulty (easy, medium, and hard) were administered to assess the chatbots' capabilities. This paper provides a detailed examination of the results and their implications for the utilization of artificial intelligence in standardized test preparation by presenting the performance of each chatbot across various skills and styles tested in the exam. Additionally, this paper explores the proficiency of artificial intelligence in addressing image-based questions and illustrates the uncertainty level of each chatbot. The results reveal varying degrees of success across the chatbots, demonstrating the influence of model sophistication and training data. GPT-4 emerged as the most proficient, especially in complex language understanding tasks, highlighting the evolution of artificial intelligence in language comprehension and its ability to pass the exam with a high score.
Abstract（参考訳）: 本稿では、標準化されたテスト質問に対する3つの人工知能チャットボット(bing、chatgpt、gpt-4)の性能を総合的に評価する。 GREとして知られる大学院記録試験は,定量的推論と言語スキルの両方を含むケーススタディとして機能する。チャットボットの能力を評価するために,多種多様なスタイルと157の言語質問を多種多様な難易度(易易度,中度,難易度)に分類した137の量的推論質問を行った。本稿では、各チャットボットの性能を試験でテストされた様々なスキルやスタイルにまたがって提示することにより、標準化テスト準備における人工知能の利用に関する結果とその意義について詳細に検討する。さらに,画像に基づく質問に対する人工知能の習熟度について検討し,各チャットボットの不確実性レベルについて述べる。その結果、チャットボット全体の成功度が変化し、モデルの洗練度とトレーニングデータの影響が示された。 gpt-4は、特に複雑な言語理解タスクにおいて最も熟練し、言語理解における人工知能の進化と、高いスコアで試験に合格する能力を強調した。

関連論文リスト

Der Effizienz- und Intelligenzbegriff in der Lexikographie und kuenstlichen Intelligenz: kann ChatGPT die lexikographische Textsorte nachbilden? [0.0]
本稿では,レキシコグラフィーと人工知能,AIにおける効率性と知性の概念について検討する。本実験の目的は,語彙的テキストタイプ,辞書的記事について,経験的,統計的に考察することである。
論文参考訳（メタデータ） (2024-12-11T18:18:07Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
A Study on the Vulnerability of Test Questions against ChatGPT-based Cheating [14.113742357609285]
ChatGPTはテキストのプロンプトを正確に答えることができる。多くの教育者は、彼らの持ち帰りテストや遠隔テストや試験がChatGPTベースの不正行為に弱いことを発見している。
論文参考訳（メタデータ） (2024-02-21T23:51:06Z)
In Generative AI we Trust: Can Chatbots Effectively Verify Political Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。 AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文参考訳（メタデータ） (2023-12-20T15:17:03Z)
ChatGPT Performance on Standardized Testing Exam -- A Proposed Strategy for Learners [0.0]
本研究は,ChatGPTの問題解決能力とその標準化されたテスト準備への応用について,GRE定量試験に焦点をあてて検討する。 GRE定量領域においてChatGPTが様々な質問タイプに対してどのように機能するか,また,質問の修正がその正確性に与える影響について検討する。
論文参考訳（メタデータ） (2023-09-25T20:25:29Z)
Can ChatGPT pass the Vietnamese National High School Graduation Examination? [0.0]
研究データセットには、文学テストケースで30のエッセイと、他の被験者向けにデザインされた1,700の多重選択質問が含まれていた。 ChatGPTは平均スコア6-7で試験に合格し、この技術が教育現場に革命をもたらす可能性を実証した。
論文参考訳（メタデータ） (2023-06-15T14:47:03Z)
Chatbots put to the test in math and logic problems: A preliminary comparison and assessment of ChatGPT-3.5, ChatGPT-4, and Google Bard [68.8204255655161]
曖昧さがなく、プレーンテキストのみで完全に記述され、ユニークな、明確に定義された正しい回答を持つ、30の質問を使用します。回答は記録され、議論され、その強みと弱点を強調します。その結果,ChatGPT-4はChatGPT-3.5より優れていた。
論文参考訳（メタデータ） (2023-05-30T11:18:05Z)
To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文参考訳（メタデータ） (2023-04-04T03:04:28Z)
Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles and Practice of Engineering (PE) Structural Exams? [1.0554048699217669]
ChatGPT-4 と Bard はそれぞれ FE 試験で 70.9% と 39.2% を獲得し、PE 試験で 46.2% と 41% を獲得した。現在のChatGPT-4はFE試験に合格する可能性があることは明らかである。
論文参考訳（メタデータ） (2023-03-31T15:37:17Z)
Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文参考訳（メタデータ） (2023-02-08T09:44:51Z)
A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文参考訳（メタデータ） (2023-02-06T04:21:59Z)
Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文参考訳（メタデータ） (2021-03-30T15:24:37Z)
Investigation of Sentiment Controllable Chatbot [50.34061353512263]
本稿では,反応の感情をスケールまたは調整する4つのモデルについて検討する。モデルはペルソナベースのモデル、強化学習、プラグアンドプレイモデル、CycleGANである。入力に対して応答が妥当かどうかを推定するために,機械評価メトリクスを開発する。
論文参考訳（メタデータ） (2020-07-11T16:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。