論文の概要: A Systematic Review on Prompt Engineering in Large Language Models for K-12 STEM Education
- arxiv url: http://arxiv.org/abs/2410.11123v1
- Date: Mon, 14 Oct 2024 22:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:48.693063
- Title: A Systematic Review on Prompt Engineering in Large Language Models for K-12 STEM Education
- Title(参考訳): K-12 STEM教育のための大規模言語モデルにおけるプロンプト工学の体系的検討
- Authors: Eason Chen, Danyang Wang, Luyi Xu, Chen Cao, Xiao Fang, Jionghao Lin,
- Abstract要約: 大規模言語モデル(LLM)は、教育と学習プロセスの両方を改善することで、K-12 STEM教育を強化する可能性がある。
本研究は,K-12 STEM教育におけるLLMと即時工学の併用について検討する。
- 参考スコア(独自算出の注目度): 16.769286544331287
- License:
- Abstract: Large language models (LLMs) have the potential to enhance K-12 STEM education by improving both teaching and learning processes. While previous studies have shown promising results, there is still a lack of comprehensive understanding regarding how LLMs are effectively applied, specifically through prompt engineering-the process of designing prompts to generate desired outputs. To address this gap, our study investigates empirical research published between 2021 and 2024 that explores the use of LLMs combined with prompt engineering in K-12 STEM education. Following the PRISMA protocol, we screened 2,654 papers and selected 30 studies for analysis. Our review identifies the prompting strategies employed, the types of LLMs used, methods of evaluating effectiveness, and limitations in prior work. Results indicate that while simple and zero-shot prompting are commonly used, more advanced techniques like few-shot and chain-of-thought prompting have demonstrated positive outcomes for various educational tasks. GPT-series models are predominantly used, but smaller and fine-tuned models (e.g., Blender 7B) paired with effective prompt engineering outperform prompting larger models (e.g., GPT-3) in specific contexts. Evaluation methods vary significantly, with limited empirical validation in real-world settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育と学習プロセスの両方を改善することで、K-12 STEM教育を強化する可能性がある。
これまでの研究では有望な結果を示しているが、LLMを効果的に適用する方法、特に望ましい出力を生成するプロンプトを設計するプロセスを通じて、包括的理解が不足している。
このギャップに対処するため,2021年から2024年にかけて発行された実験的な研究を行い,K-12 STEM教育におけるLLMと迅速な工学の併用について検討した。
PRISMAプロトコルに従って2,654枚の論文をスクリーニングし、分析のために30の論文を選定した。
本総説では, 導入戦略, 使用するLCMの種類, 有効性の評価方法, 先行作業における限界について検討する。
結果は、単純でゼロショットのプロンプトが一般的に使われているが、より高度な技術である、ほとんどショットやチェーン・オブ・シークレットのプロンプトは、様々な教育課題に対して肯定的な結果を示したことを示している。
GPTシリーズモデルは主に使用されるが、より小型で微調整されたモデル(Blender 7Bなど)と効果的なプロンプトエンジニアリング性能のペアが組み合わされ、より大規模なモデル(GPT-3など)が特定の文脈で進行する。
評価方法は大きく異なり、実環境における経験的検証は限られている。
関連論文リスト
- Evaluating the Impact of Advanced LLM Techniques on AI-Lecture Tutors for a Robotics Course [0.35132421583441026]
本研究では,大規模言語モデル(LLM)を人工知能を用いた大学授業用チューターとして評価する。
特に、プロンプトエンジニアリング、Retrieval-Augmented-Generation (RAG)、ファインチューニングなど、様々な高度な技術が利用されている。
以上の結果から,RAGと迅速なエンジニアリングを組み合わせることで,モデル応答が大幅に向上し,より優れた事実解が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-02T19:49:19Z) - Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models [14.405446719317291]
既存のデバイアス技術はトレーニングベースまたはモデルの内部および出力分布へのアクセスを必要とするのが一般的である。
我々は,システム2の思考プロセスを適用し,論理的,反射的,批判的テキスト生成を誘導する,包括的エンドユーザー中心のデバイアスの反復的枠組みを評価する。
論文 参考訳(メタデータ) (2024-05-16T20:27:58Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - A Practical Survey on Zero-shot Prompt Design for In-context Learning [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクを大幅に改善した。
本稿では,異なる種類のプロンプトに着目した,コンテキスト内学習手法の総合的なレビューを行う。
本稿では,手動設計や最適化アルゴリズム,評価手法など,設計を促すための様々なアプローチについて検討する。
論文 参考訳(メタデータ) (2023-09-22T23:00:34Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。