論文の概要: The GPT Surprise: Offering Large Language Model Chat in a Massive Coding Class Reduced Engagement but Increased Adopters Exam Performances
- arxiv url: http://arxiv.org/abs/2407.09975v1
- Date: Thu, 25 Apr 2024 15:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:08:55.931659
- Title: The GPT Surprise: Offering Large Language Model Chat in a Massive Coding Class Reduced Engagement but Increased Adopters Exam Performances
- Title(参考訳): GPTの期待 - 大規模コーディングクラスにおける大規模言語モデルチャットの提供によるエンゲージメント削減と,導入者のエクササイズ向上
- Authors: Allen Nie, Yash Chandak, Miroslav Suzara, Malika Ali, Juliette Woodrow, Matt Peng, Mehran Sahami, Emma Brunskill, Chris Piech,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い学習経験において急速に採用されている。
我々は,146カ国から5,831人の学生を対象に,大規模ランダム化制御試験を行った。
受験者, 受験者, 受験者, 受験者に対して, GPT-4の広告が有意な減少を招いた。
- 参考スコア(独自算出の注目度): 26.688772122455745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are quickly being adopted in a wide range of learning experiences, especially via ubiquitous and broadly accessible chat interfaces like ChatGPT and Copilot. This type of interface is readily available to students and teachers around the world, yet relatively little research has been done to assess the impact of such generic tools on student learning. Coding education is an interesting test case, both because LLMs have strong performance on coding tasks, and because LLM-powered support tools are rapidly becoming part of the workflow of professional software engineers. To help understand the impact of generic LLM use on coding education, we conducted a large-scale randomized control trial with 5,831 students from 146 countries in an online coding class in which we provided some students with access to a chat interface with GPT-4. We estimate positive benefits on exam performance for adopters, the students who used the tool, but over all students, the advertisement of GPT-4 led to a significant average decrease in exam participation. We observe similar decreases in other forms of course engagement. However, this decrease is modulated by the student's country of origin. Offering access to LLMs to students from low human development index countries increased their exam participation rate on average. Our results suggest there may be promising benefits to using LLMs in an introductory coding class, but also potential harms for engagement, which makes their longer term impact on student success unclear. Our work highlights the need for additional investigations to help understand the potential impact of future adoption and integration of LLMs into classrooms.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にChatGPTやCopilotのようなユビキタスで広くアクセス可能なチャットインターフェースを通じて、幅広い学習体験で急速に採用されている。
この種のインターフェースは、世界中の学生や教師が容易に利用できるが、このような汎用ツールが学生の学習に与える影響を評価する研究は比較的少ない。
コーディング教育は、LLMがコーディングタスクに強いパフォーマンスを持っていることと、LLMを利用したサポートツールが、プロのソフトウェアエンジニアのワークフローの一部になっていることから、興味深いテストケースである。
汎用LLMがプログラミング教育に与える影響を理解するため,146か国から5,831人の学生を対象に大規模ランダム化制御試験を行い,GPT-4によるチャットインタフェースへのアクセスを学生に提供した。
受験者, 受験者, 受験者, 受験者に対して, GPT-4の広告が有意な減少を招いた。
コースエンゲージメントの他の形態でも同様の減少が観察される。
しかし、この減少は学生の出身国によって調節されている。
人体開発指数の低い国から学生にLLMへのアクセスを提供することで、受験率の平均は上昇した。
以上の結果から,LLMを初等プログラミングクラスで活用する上で有望なメリットがあると考えられるが,エンゲージメントに対する潜在的影響もあり,長期的影響が学生の成功に与える影響は明らかでない。
我々の研究は、将来のLLMの導入と教室への統合の潜在的影響を理解するために、さらなる調査の必要性を強調している。
関連論文リスト
- LLMs are Imperfect, Then What? An Empirical Study on LLM Failures in Software Engineering [38.20696656193963]
非自明なソフトウェアエンジニアリングタスクにおいて,ChatGPTをコーディングアシスタントとして使用した22名の参加者を対象に,観察的研究を行った。
そこで我々は,ChatGPTが失敗した事例,その根本原因,およびユーザが使用する緩和ソリューションを特定した。
論文 参考訳(メタデータ) (2024-11-15T03:29:41Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Analyzing LLM Usage in an Advanced Computing Class in India [4.580708389528142]
本研究では,大規模言語モデル(LLM)を,大学院生や大学院生が高度なコンピューティングクラスにおけるプログラミング課題に活用することを検討した。
インド大学の分散システムクラスから411名の学生を対象に,総合的な分析を行った。
論文 参考訳(メタデータ) (2024-04-06T12:06:56Z) - An Exploratory Study on Upper-Level Computing Students' Use of Large Language Models as Tools in a Semester-Long Project [2.7325338323814328]
本研究の目的は、学期間ソフトウェアエンジニアリングプロジェクトにおいて、計算学生のLSMの使用経験とアプローチを検討することである。
我々はPurdue大学の上級ソフトウェア工学コースからデータを収集した。
本研究では,学生の利用パターンや学習成果に関連するテーマを特定するために,データを分析した。
論文 参考訳(メタデータ) (2024-03-27T15:21:58Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - An Empirical Study on Usage and Perceptions of LLMs in a Software
Engineering Project [1.433758865948252]
大規模言語モデル(LLM)は人工知能の飛躍であり、人間の言語を用いたタスクに優れる。
本稿では、AI生成したコードを分析し、コード生成に使用するプロンプトと人間の介入レベルを分析し、コードをコードベースに統合する。
ソフトウェア開発の初期段階において,LSMが重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-01-29T14:32:32Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。
我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文 参考訳(メタデータ) (2023-07-10T11:30:46Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。