論文の概要: Comparative Analysis of ChatGPT, GPT-4, and Microsoft Bing Chatbots for GRE Test
- arxiv url: http://arxiv.org/abs/2312.03719v4
- Date: Sat, 6 Apr 2024 18:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:56:13.425736
- Title: Comparative Analysis of ChatGPT, GPT-4, and Microsoft Bing Chatbots for GRE Test
- Title(参考訳): GRE試験におけるChatGPT, GPT-4, Microsoft Bing Chatbotの比較解析
- Authors: Mohammad Abu-Haifa, Bara'a Etawi, Huthaifa Alkhatatbeh, Ayman Ababneh,
- Abstract要約: 本研究では,Bing,ChatGPT,GPT-4の3つの人工知能チャットボットが,標準化されたテストから質問に答える上で,いかにうまく機能するかを解析する。
量的推論の異なる137の質問と、言語カテゴリーを持つ157の質問が、それらの能力を評価するために使用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research paper presents an analysis of how well three artificial intelligence chatbots: Bing, ChatGPT, and GPT-4, perform when answering questions from standardized tests. The Graduate Record Examination is used in this paper as a case study. A total of 137 questions with different forms of quantitative reasoning and 157 questions with verbal categories were used to assess their capabilities. This paper presents the performance of each chatbot across various skills and styles tested in the exam. The proficiency of these chatbots in addressing image-based questions is also explored, and the uncertainty level of each chatbot is illustrated. The results show varying degrees of success across the chatbots, where GPT-4 served as the most proficient, especially in complex language understanding tasks and image-based questions. Results highlight the ability of these chatbots to pass the GRE with a high score, which encourages the use of these chatbots in test preparation. The results also show how important it is to ensure that, if the test is administered online, as it was during COVID, the test taker is segregated from these resources for a fair competition on higher education opportunities.
- Abstract(参考訳): 本研究では,Bing,ChatGPT,GPT-4の3つの人工知能チャットボットが,標準化されたテストから質問に答える上で,いかにうまく機能するかを解析する。
本論文では,研究記録試験を事例研究として用いた。
量的推論の異なる137の質問と、言語カテゴリーを持つ157の質問が、それらの能力を評価するために使用された。
本稿では,各チャットボットの性能を,試験でテストしたさまざまなスキルとスタイルで比較する。
画像に基づく質問に対処するチャットボットの習熟度についても検討し、各チャットボットの不確実性レベルについて説明する。
その結果, GPT-4が最も熟達したチャットボット, 特に複雑な言語理解タスクや画像に基づく質問において, チャットボット全体の成功度は様々であった。
結果は、これらのチャットボットが高いスコアでGREをパスする能力を強調し、テストの準備にこれらのチャットボットを使うことを促進する。
結果はまた、検査がオンラインで行われている場合、その検査が新型コロナウイルスの期間中に、より高い教育機会に関する公正な競争のためにこれらのリソースから分離されることを確実にすることが重要であることも示している。
関連論文リスト
- Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - A Study on the Vulnerability of Test Questions against ChatGPT-based
Cheating [14.113742357609285]
ChatGPTはテキストのプロンプトを正確に答えることができる。
多くの教育者は、彼らの持ち帰りテストや遠隔テストや試験がChatGPTベースの不正行為に弱いことを発見している。
論文 参考訳(メタデータ) (2024-02-21T23:51:06Z) - In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information? [39.58317527488534]
本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
論文 参考訳(メタデータ) (2023-12-20T15:17:03Z) - ChatGPT Performance on Standardized Testing Exam -- A Proposed Strategy
for Learners [0.0]
本研究は,ChatGPTの問題解決能力とその標準化されたテスト準備への応用について,GRE定量試験に焦点をあてて検討する。
GRE定量領域においてChatGPTが様々な質問タイプに対してどのように機能するか,また,質問の修正がその正確性に与える影響について検討する。
論文 参考訳(メタデータ) (2023-09-25T20:25:29Z) - Can ChatGPT pass the Vietnamese National High School Graduation
Examination? [0.0]
研究データセットには、文学テストケースで30のエッセイと、他の被験者向けにデザインされた1,700の多重選択質問が含まれていた。
ChatGPTは平均スコア6-7で試験に合格し、この技術が教育現場に革命をもたらす可能性を実証した。
論文 参考訳(メタデータ) (2023-06-15T14:47:03Z) - Chatbots put to the test in math and logic problems: A preliminary
comparison and assessment of ChatGPT-3.5, ChatGPT-4, and Google Bard [68.8204255655161]
曖昧さがなく、プレーンテキストのみで完全に記述され、ユニークな、明確に定義された正しい回答を持つ、30の質問を使用します。
回答は記録され、議論され、その強みと弱点を強調します。
その結果,ChatGPT-4はChatGPT-3.5より優れていた。
論文 参考訳(メタデータ) (2023-05-30T11:18:05Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Can AI Chatbots Pass the Fundamentals of Engineering (FE) and Principles
and Practice of Engineering (PE) Structural Exams? [1.0554048699217669]
ChatGPT-4 と Bard はそれぞれ FE 試験で 70.9% と 39.2% を獲得し、PE 試験で 46.2% と 41% を獲得した。
現在のChatGPT-4はFE試験に合格する可能性があることは明らかである。
論文 参考訳(メタデータ) (2023-03-31T15:37:17Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。