論文の概要: LLM Prompt Evaluation for Educational Applications
- arxiv url: http://arxiv.org/abs/2601.16134v1
- Date: Thu, 22 Jan 2026 17:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.673184
- Title: LLM Prompt Evaluation for Educational Applications
- Title(参考訳): 教育応用のためのLLMプロンプト評価
- Authors: Langdon Holmes, Adam Coscia, Scott Crossley, Joon Suh Choi, Wesley Morris,
- Abstract要約: 大規模言語モデル(LLM)は、教育応用においてますます一般的になっている。
LLMプロンプトを設計・評価するためのエビデンスベースの手法の必要性が高まっている。
本研究では,プロンプト評価のための汎用的,体系的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.1883807277376754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become increasingly common in educational applications, there is a growing need for evidence-based methods to design and evaluate LLM prompts that produce personalized and pedagogically aligned out-puts. This study presents a generalizable, systematic approach for evaluating prompts, demonstrated through an analysis of LLM-generated follow-up questions in a structured dialogue activity. Six prompt templates were designed and tested. The templates incorporated established prompt engineering patterns, with each prompt emphasizing distinct pedagogical strategies. The prompt templates were compared through a tournament-style evaluation framework that can be adapted for other educational applications. The tournament employed the Glicko2 rating system with eight judges evaluating question pairs across three dimensions: format, dialogue support, and appropriateness for learners. Data was sourced from 120 authentic user interactions across three distinct educational deployments. Results showed that a single prompt related to strategic reading out-performed other templates with win probabilities ranging from 81% to 100% in pairwise comparisons. This prompt combined persona and context manager pat-terns and was designed to support metacognitive learning strategies such as self-directed learning. The methodology showcases how educational technology re- searchers can systematically evaluate and improve prompt designs, moving beyond ad-hoc prompt engineering toward evidence-based prompt development for educational applications.
- Abstract(参考訳): 大規模言語モデル(LLM)が教育アプリケーションで一般的になるにつれて、パーソナライズされ、教育的に整合したアウトプットを生成するLSMプロンプトを設計し、評価するためのエビデンスベースの手法の必要性が高まっている。
本研究は,構造化対話活動におけるLLM生成フォローアップ質問の分析を通じて,プロンプト評価のための一般化可能な体系的アプローチを提案する。
6つのプロンプトテンプレートが設計され、テストされた。
テンプレートには確立されたプロンプトエンジニアリングパターンが組み込まれており、それぞれのプロンプトは異なる教育戦略を強調している。
プロンプトテンプレートはトーナメントスタイルの評価フレームワークを通じて比較され、他の教育応用に適用できる。
トーナメントでは8人の審査員が3次元の質問対(形式、対話サポート、学習者の適切性)を評価するGlicko2レーティングシステムを採用した。
データは3つの異なる教育展開にわたる120のユーザインタラクションから得られたものだ。
その結果,2対比較では,勝確率が81%から100%の範囲で,他のテンプレートよりも優れた戦略的な読み方に関連する1つのプロンプトが得られた。
これによりペルソナとコンテキストマネージャの組み合わせが促進され、自己指向学習のようなメタ認知学習戦略をサポートするように設計された。
この方法論は、教育技術の再探索者がいかにしてプロンプトデザインを体系的に評価し、改善できるかを示すもので、アドホックなプロンプトエンジニアリングを超えて、エビデンスベースの教育用プロンプト開発へと移行している。
関連論文リスト
- EduEval: A Hierarchical Cognitive Benchmark for Evaluating Large Language Models in Chinese Education [11.130206904690745]
我々は,中国語K-12教育における大規模言語モデル(LLM)を評価するための包括的な階層的ベンチマークであるEduEvalを紹介する。
EduEvalは24種類のタスクタイプで構成され、11,000以上の質問が小学校から高校に分散している。
ゼロショットと少数ショットの両方の条件下で14のLLMを評価した結果,モデルが実際のタスクで良好に機能する一方で,教室での対話の分類に苦慮し,創造的コンテンツ生成において矛盾する結果を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-11-29T03:09:50Z) - Can Large Language Models Help Students Prove Software Correctness? An Experimental Study with Dafny [75.55915044740566]
コンピューティング教育の学生は、ChatGPTのような大きな言語モデル(LLM)をますます利用している。
本稿では,Dafny の形式的検証演習において,学生が LLM とどのように相互作用するかを検討する。
論文 参考訳(メタデータ) (2025-06-27T16:34:13Z) - CoTAL: Human-in-the-Loop Prompt Engineering for Generalizable Formative Assessment Scoring [2.249916681499244]
Chain-of-Thought Prompting + Active Learning (CoTAL) は、Evidence-Centered Design (ECD) に基づく形式的評価評価手法である。
以上の結果から,CoTALはGPT-4のドメイン間でのスコアリング性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-04-03T06:53:34Z) - From Prompts to Templates: A Systematic Prompt Template Analysis for Real-world LLMapps [20.549178260624043]
大規模言語モデル(LLM)は、自然言語のプロンプトを通じて直感的なタスク実行を可能にすることで、人間とAIのインタラクションに革命をもたらした。
構造や単語の小さなバリエーションは、出力に大きな違いをもたらす可能性がある。
本稿では,実用LLMappにおけるプロンプトテンプレートの包括的解析について述べる。
論文 参考訳(メタデータ) (2025-04-02T18:20:06Z) - Use Me Wisely: AI-Driven Assessment for LLM Prompting Skills Development [5.559706293891474]
大規模言語モデル(LLM)を利用したチャットボットは、様々な領域で普及し、様々なタスクやプロセスをサポートしている。
しかし、プロンプトは非常にタスクに依存し、ドメインに依存しており、ジェネリックアプローチの有効性を制限している。
本研究では, アドホックガイドラインと最小限の注釈付きプロンプトサンプルを用いて, LLM を用いた学習評価を促進できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-04T11:56:33Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.82812214830023]
効率的なプロンプティング手法は幅広い注目を集めている。
本稿では,異なるプロンプト成分に対する自動プロンプトエンジニアリングと連続空間および離散空間におけるプロンプト圧縮について論じる。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。