論文の概要: "Which LLM should I use?": Evaluating LLMs for tasks performed by Undergraduate Computer Science Students
- arxiv url: http://arxiv.org/abs/2402.01687v2
- Date: Wed, 3 Apr 2024 14:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:08:00.205457
- Title: "Which LLM should I use?": Evaluating LLMs for tasks performed by Undergraduate Computer Science Students
- Title(参考訳): 「何LLMを使おうか?」--大学院コンピュータサイエンスの学生が行う課題に対するLLMの評価
- Authors: Vibhor Agarwal, Madhav Krishan Garg, Sahiti Dharmavaram, Dhruv Kumar,
- Abstract要約: 本研究では,大学生に共通する作業における大規模言語モデル(LLM)の有効性を評価する。
私たちの研究は、Google Bard、ChatGPT(3.5)、GitHub Copilot Chat、Microsoft Copilot Chatなど、公開されているLLMのいくつかを体系的に評価しています。
- 参考スコア(独自算出の注目度): 2.6043678412433713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study evaluates the effectiveness of various large language models (LLMs) in performing tasks common among undergraduate computer science students. Although a number of research studies in the computing education community have explored the possibility of using LLMs for a variety of tasks, there is a lack of comprehensive research comparing different LLMs and evaluating which LLMs are most effective for different tasks. Our research systematically assesses some of the publicly available LLMs such as Google Bard, ChatGPT(3.5), GitHub Copilot Chat, and Microsoft Copilot across diverse tasks commonly encountered by undergraduate computer science students in India. These tasks include code explanation and documentation, solving class assignments, technical interview preparation, learning new concepts and frameworks, and email writing. Evaluation for these tasks was carried out by pre-final year and final year undergraduate computer science students and provides insights into the models' strengths and limitations. This study aims to guide students as well as instructors in selecting suitable LLMs for any specific task and offers valuable insights on how LLMs can be used constructively by students and instructors.
- Abstract(参考訳): 本研究は,大学生に共通する課題遂行における多種多様な大規模言語モデル(LLM)の有効性を評価するものである。
コンピュータ教育コミュニティにおける多くの研究は、様々なタスクにLLMを使用する可能性について検討してきたが、異なるLLMを比較し、どのLLMが様々なタスクに最も効果的であるかを評価する包括的な研究は乏しい。
Google Bard、ChatGPT(3.5)、GitHub Copilot Chat、Microsoft Copilotなど、インドの学部のコンピュータサイエンスの学生がよく遭遇するさまざまなタスクを体系的に評価する。
これらのタスクには、コード説明とドキュメント、クラス割り当ての解決、テクニカルインタビューの準備、新しい概念とフレームワークの学習、Eメールの書き込みが含まれる。
これらのタスクの評価は、最終年度と最終年度のコンピュータサイエンスの学生によって行われ、モデルの強みと限界についての洞察を提供する。
本研究の目的は,学習者や指導者が特定のタスクに適したLLMを選択することを指導することであり,学生やインストラクターがLLMをどのように構築的に利用できるかについての貴重な知見を提供することである。
関連論文リスト
- When Search Engine Services meet Large Language Models: Visions and Challenges [53.32948540004658]
本稿では,大規模言語モデルと検索エンジンの統合が,両者の相互に利益をもたらすかどうかを詳細に検討する。
LLM(Search4LLM)の改良と,LLM(LLM4Search)を用いた検索エンジン機能の向上という,2つの主要な領域に注目した。
論文 参考訳(メタデータ) (2024-06-28T03:52:13Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - CS1-LLM: Integrating LLMs into CS1 Instruction [0.6282171844772422]
本経験報告では,大規模言語モデルを完全に取り入れた大規模大学におけるCS1コースについて述べる。
LLMを組み込むため、コースは意図的に変更され、シンタックスやコードの記述がスクラッチから強調されるようになった。
学生は3つの異なる領域に3つの大きなオープンエンドプロジェクトを与えられ、彼らの創造性を誇示した。
論文 参考訳(メタデータ) (2024-04-17T14:44:28Z) - Analyzing LLM Usage in an Advanced Computing Class in India [4.580708389528142]
本研究では,大規模言語モデル(LLM)を,大学院生や大学院生が高度なコンピューティングクラスにおけるプログラミング課題に活用することを検討した。
インド大学の分散システムクラスから411名の学生を対象に,総合的な分析を行った。
論文 参考訳(メタデータ) (2024-04-06T12:06:56Z) - An Exploratory Study on Upper-Level Computing Students' Use of Large Language Models as Tools in a Semester-Long Project [2.7325338323814328]
本研究の目的は、学期間ソフトウェアエンジニアリングプロジェクトにおいて、計算学生のLSMの使用経験とアプローチを検討することである。
我々はPurdue大学の上級ソフトウェア工学コースからデータを収集した。
本研究では,学生の利用パターンや学習成果に関連するテーマを特定するために,データを分析した。
論文 参考訳(メタデータ) (2024-03-27T15:21:58Z) - An Empirical Study on Usage and Perceptions of LLMs in a Software
Engineering Project [1.433758865948252]
大規模言語モデル(LLM)は人工知能の飛躍であり、人間の言語を用いたタスクに優れる。
本稿では、AI生成したコードを分析し、コード生成に使用するプロンプトと人間の介入レベルを分析し、コードをコードベースに統合する。
ソフトウェア開発の初期段階において,LSMが重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-01-29T14:32:32Z) - Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。
我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文 参考訳(メタデータ) (2023-07-10T11:30:46Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.70557995528463]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。
実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文 参考訳(メタデータ) (2023-04-26T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。