論文の概要: "Which LLM should I use?": Evaluating LLMs for tasks performed by
Undergraduate Computer Science Students in India
- arxiv url: http://arxiv.org/abs/2402.01687v1
- Date: Mon, 22 Jan 2024 15:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:53:36.702627
- Title: "Which LLM should I use?": Evaluating LLMs for tasks performed by
Undergraduate Computer Science Students in India
- Title(参考訳): 「何LLMを使うべきか?」:インドにおける大学院コンピュータサイエンス学生の課題に対するLLMの評価
- Authors: Vibhor Agarwal, Nakul Thureja, Madhav Krishan Garg, Sahiti
Dharmavaram, Meghna, Dhruv Kumar
- Abstract要約: 本研究では,大学生に共通する作業における大規模言語モデル(LLM)の有効性を評価する。
私たちの研究は、Google Bard、ChatGPT、GitHub Copilot Chat、Microsoft Copilotなど、公開されているLLMのいくつかを体系的に評価しています。
- 参考スコア(独自算出の注目度): 2.4275319595116915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study evaluates the effectiveness of various large language models
(LLMs) in performing tasks common among undergraduate computer science
students. Although a number of research studies in the computing education
community have explored the possibility of using LLMs for a variety of tasks,
there is a lack of comprehensive research comparing different LLMs and
evaluating which LLMs are most effective for different tasks. Our research
systematically assesses some of the publicly available LLMs such as Google
Bard, ChatGPT, GitHub Copilot Chat, and Microsoft Copilot across diverse tasks
commonly encountered by undergraduate computer science students. These tasks
include code generation, explanation, project ideation, content generation,
class assignments, and email composition. Evaluation for these tasks was
carried out by junior and senior students in computer science, and provides
insights into the models' strengths and limitations. This study aims to guide
students in selecting suitable LLMs for any specific task and offers valuable
insights on how LLMs can be used constructively by students and instructors.
- Abstract(参考訳): 本研究は,大学生に共通する課題遂行における様々な大規模言語モデル(LLM)の有効性を評価する。
コンピュータ教育コミュニティにおける多くの研究は、様々なタスクにLLMを使用する可能性について検討してきたが、異なるLLMを比較し、どのLLMが様々なタスクに最も効果的であるかを評価する包括的な研究は乏しい。
本研究では,google bard,chatgpt,github copilot chat,microsoft copilotなどの公開llmを,学部生のコンピュータサイエンスの学生に共通するさまざまなタスクで体系的に評価した。
これらのタスクには、コード生成、説明、プロジェクトイデオレーション、コンテンツ生成、クラス割り当て、メール構成が含まれる。
これらのタスクの評価は、コンピュータサイエンスの中高生によって行われ、モデルの強みと限界についての洞察を提供する。
本研究の目的は,学生が特定のタスクに適したLLMを選択することを指導することであり,学生やインストラクターがLLMをどのように構築的に利用できるかについての貴重な知見を提供することである。
関連論文リスト
- Analyzing LLM Usage in an Advanced Computing Class in India [1.6612806983579371]
既存の研究は主に、導入プログラミングの文脈における大規模言語モデル(LLM)の影響に焦点を当てている。
本研究は、先進的なコンピューティングコースにおいて、学生とLLM間の生の相互作用を包括的に分析する。
論文 参考訳(メタデータ) (2024-04-06T12:06:56Z) - An Exploratory Study on Upper-Level Computing Students' Use of Large Language Models as Tools in a Semester-Long Project [2.7325338323814328]
本研究の目的は、学期間ソフトウェアエンジニアリングプロジェクトにおいて、計算学生のLSMの使用経験とアプローチを検討することである。
我々はPurdue大学の上級ソフトウェア工学コースからデータを収集した。
本研究では,学生の利用パターンや学習成果に関連するテーマを特定するために,データを分析した。
論文 参考訳(メタデータ) (2024-03-27T15:21:58Z) - An Empirical Study on Usage and Perceptions of LLMs in a Software
Engineering Project [1.433758865948252]
大規模言語モデル(LLM)は人工知能の飛躍であり、人間の言語を用いたタスクに優れる。
本稿では、AI生成したコードを分析し、コード生成に使用するプロンプトと人間の介入レベルを分析し、コードをコードベースに統合する。
ソフトウェア開発の初期段階において,LSMが重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-01-29T14:32:32Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Towards an Understanding of Large Language Models in Software
Engineering Tasks [32.09925582943177]
大規模言語モデル(LLM)は、テキスト生成や推論といったタスクにおける驚くべき性能のために、広く注目され、研究されている。
本論文は, LLMとソフトウェア工学を組み合わせた研究・製品について, 総合的に調査し, 検討した最初の論文である。
我々は7つの主流データベースから関連文献を広範囲に収集し、分析のために123の論文を選択した。
論文 参考訳(メタデータ) (2023-08-22T12:37:29Z) - Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。
我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文 参考訳(メタデータ) (2023-07-10T11:30:46Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [48.70557995528463]
このガイドは、研究者や実践者が大規模言語モデルを扱うための貴重な洞察とベストプラクティスを提供することを目的としている。
実世界のシナリオにおける LLM の実用的応用と限界を説明するために, 様々なユースケースと非利用事例を提示する。
論文 参考訳(メタデータ) (2023-04-26T17:52:30Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。