論文の概要: Performance of Large Language Models in a Computer Science Degree
Program
- arxiv url: http://arxiv.org/abs/2308.02432v1
- Date: Mon, 24 Jul 2023 14:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 01:39:54.633153
- Title: Performance of Large Language Models in a Computer Science Degree
Program
- Title(参考訳): コンピュータサイエンスディグリープログラムにおける大規模言語モデルの性能
- Authors: Tim Kr\"uger, Michael Gref
- Abstract要約: 本稿では,応用科学大学大学院コンピュータサイエンス学位課程における大規模言語モデルの性能について述べる。
講義資料,運動課題,過去の試験をモデルに促すことで,各分野のコンピュータサイエンス分野にまたがってその習熟度を評価することを目指す。
We found that ChatGPT-3.5 averageed 79.9% of the total score in 10 test module, BingAI achieved 68.4%, and LLaMa, in the 6600 billion parameter variant, 20%。
- 参考スコア(独自算出の注目度): 0.5330240017302619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models such as ChatGPT-3.5 and GPT-4.0 are ubiquitous and
dominate the current discourse. Their transformative capabilities have led to a
paradigm shift in how we interact with and utilize (text-based) information.
Each day, new possibilities to leverage the capabilities of these models
emerge. This paper presents findings on the performance of different large
language models in a university of applied sciences' undergraduate computer
science degree program. Our primary objective is to assess the effectiveness of
these models within the curriculum by employing them as educational aids. By
prompting the models with lecture material, exercise tasks, and past exams, we
aim to evaluate their proficiency across different computer science domains. We
showcase the strong performance of current large language models while
highlighting limitations and constraints within the context of such a degree
program. We found that ChatGPT-3.5 averaged 79.9% of the total score in 10
tested modules, BingAI achieved 68.4%, and LLaMa, in the 65 billion parameter
variant, 20%. Despite these convincing results, even GPT-4.0 would not pass the
degree program - due to limitations in mathematical calculations.
- Abstract(参考訳): ChatGPT-3.5やGPT-4.0のような大きな言語モデルはユビキタスであり、現在の話題を支配している。
その変換能力は、私たちが(テキストベースの)情報と対話し、活用する方法のパラダイムシフトをもたらしました。
毎日、これらのモデルの能力を活用する新しい可能性が現れます。
本稿では,応用科学大学コンピュータサイエンス学部プログラムにおいて,異なる大規模言語モデルの性能について述べる。
本研究の目的は,これらのモデルの有効性を教育支援として評価することである。
講義資料,運動課題,過去の試験をモデルに促すことで,各分野のコンピュータサイエンス分野にまたがってその習熟度を評価することを目指す。
このようなプログラムのコンテキスト内で制約や制約を強調しながら,現在の大規模言語モデルの強みを示す。
chatgpt-3.5は10個のテストモジュールで平均スコア79.9%、bingaiは68.4%、llamaは6億のパラメータ変種である20%であった。
これらの説得力のある結果にもかかわらず、GPT-4.0でさえ、数学計算の限界のために学位プログラムに合格しなかった。
関連論文リスト
- Language Models for Code Completion: A Practical Evaluation [13.174471984950857]
本研究は,実世界のコードを完成させる際の3つの公開言語モデルの定量的および定性的な評価を提供する。
1200以上のユーザから1年以上にわたって,実際の自動補完使用データを収集しました。
66.3%の障害はモデルの制限によるものであり、24.4%は開発コンテキストにおける不適切なモデル使用によるものであり、9.3%は開発者が過剰に記述した有効な要求であることがわかった。
論文 参考訳(メタデータ) (2024-02-25T20:43:55Z) - The potential of large language models for improving probability
learning: A study on ChatGPT3.5 and first-year computer engineering students [0.565395466029518]
ChatGPTは確率問題を解くための大規模言語モデルである。
ChatGPTは、一般にコンピュータ工学試験で提示される確率問題の解決に使用される。
モデルが高品質な説明を提供し、どんなプログラミング言語でもソリューションを説明する能力は、大きな言語モデルが学習アシスタントとして機能する可能性を示唆している。
論文 参考訳(メタデータ) (2023-10-09T12:54:58Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Evaluating ChatGPT and GPT-4 for Visual Programming [20.64766977405438]
GPT-3.5 に基づく ChatGPT と GPT-4 の 2 つのモデルを評価する。
その結果,これらのモデルでは,視覚的プログラミングに不可欠な空間的,論理的,プログラム的スキルの組み合わせが困難であることが示唆された。
論文 参考訳(メタデータ) (2023-07-30T22:13:20Z) - Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4,
and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文 参考訳(メタデータ) (2023-06-29T17:57:40Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Reasoning Like Program Executors [48.819113224699976]
POETは言語モデルにデータ駆動アプローチを通じてプログラム実行者にある推論知識を抽出する権限を与える。
PoETは自然言語推論におけるモデルパフォーマンスを大幅に向上させることができる。
PoETは推論の事前トレーニングに新たなゲートを開く。
論文 参考訳(メタデータ) (2022-01-27T12:28:24Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。