論文の概要: Prompting Strategies for Language Model-Based Item Generation in K-12 Education: Bridging the Gap Between Small and Large Language Models
- arxiv url: http://arxiv.org/abs/2508.20217v1
- Date: Wed, 27 Aug 2025 18:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.730386
- Title: Prompting Strategies for Language Model-Based Item Generation in K-12 Education: Bridging the Gap Between Small and Large Language Models
- Title(参考訳): K-12教育における言語モデルに基づく項目生成の推進方略:小・大言語モデル間のギャップを埋める
- Authors: Mohammad Amini, Babak Ahmadi, Xiaomeng Xiong, Yilin Zhang, Christopher Qiao,
- Abstract要約: 本研究では、言語モデルを用いた自動生成(AIG)を用いて、形態的評価のための複数選択質問(MCQ)を作成する。
ゼロショット,少数ショット,チェーンオブ思考,ロールベース,シーケンシャル,組み合わせを含む7つの構造化プロンプト戦略を評価した。
その結果,構造的プロンプト,特にチェーン・オブ・シンクショナルデザインとシーケンシャルデザインを組み合わせた戦略はGemmaの出力を大幅に改善した。
- 参考スコア(独自算出の注目度): 5.584522240405349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores automatic generation (AIG) using language models to create multiple choice questions (MCQs) for morphological assessment, aiming to reduce the cost and inconsistency of manual test development. The study used a two-fold approach. First, we compared a fine-tuned medium model (Gemma, 2B) with a larger untuned one (GPT-3.5, 175B). Second, we evaluated seven structured prompting strategies, including zero-shot, few-shot, chain-of-thought, role-based, sequential, and combinations. Generated items were assessed using automated metrics and expert scoring across five dimensions. We also used GPT-4.1, trained on expert-rated samples, to simulate human scoring at scale. Results show that structured prompting, especially strategies combining chain-of-thought and sequential design, significantly improved Gemma's outputs. Gemma generally produced more construct-aligned and instructionally appropriate items than GPT-3.5's zero-shot responses, with prompt design playing a key role in mid-size model performance. This study demonstrates that structured prompting and efficient fine-tuning can enhance midsized models for AIG under limited data conditions. We highlight the value of combining automated metrics, expert judgment, and large-model simulation to ensure alignment with assessment goals. The proposed workflow offers a practical and scalable way to develop and validate language assessment items for K-12.
- Abstract(参考訳): 本研究では,言語モデルを用いた自動生成(AIG)による形態的評価のための複数選択質問(MCQ)の作成について検討し,手動テスト開発におけるコストと不整合の低減を目的とした。
その研究は2倍のアプローチを用いた。
まず,微調整媒体モデル (Gemma, 2B) と大型未調整モデル (GPT-3.5, 175B) を比較した。
第2に、ゼロショット、少数ショット、チェーンオブ思想、ロールベース、シーケンシャル、組み合わせを含む7つの構造化プロンプト戦略を評価した。
生成した項目は、自動メトリクスと5次元のエキスパートスコアを用いて評価された。
また,GPT-4.1を用いて,ヒトのスコアリングのシミュレーションを行った。
その結果,構造的プロンプト,特にチェーン・オブ・シンクショナルデザインとシーケンシャルデザインを組み合わせた戦略はGemmaの出力を大幅に改善した。
Gemmaは概して、GPT-3.5のゼロショット応答よりも構成整合性があり、命令的に適切なアイテムを生成し、即時設計は中規模モデルの性能において重要な役割を担った。
本研究は, 構造的プロンプトと効率的な微調整により, 限られたデータ条件下でのAIGの中規模モデルの強化が可能であることを示す。
評価目標との整合性を確保するために、自動メトリクス、専門家の判断、および大規模モデルシミュレーションを組み合わせることの価値を強調します。
提案したワークフローは、K-12の言語アセスメント項目の開発と検証のための実用的でスケーラブルな方法を提供する。
関連論文リスト
- Neural Models and Language Model Prompting for the Multidimensional Evaluation of Open-Ended Conversations [1.0006801729628605]
我々は,対話レベル,次元別スコアを予測するモデルを開発した。
本研究は,言語モデル(LM)をプロンプトとして活用し,エンコーダに基づく分類と回帰モデルを訓練する2つの主要な戦略に従う。
テストセットのパフォーマンスは低下するが、テストセットには、トレインおよびバリデーションセットに関するいくつかのディメンションに対して、かなり異なるスコア範囲のアノテーションが含まれていることに注意する必要がある。
論文 参考訳(メタデータ) (2025-08-31T13:24:05Z) - GIER: Gap-Driven Self-Refinement for Large Language Models [0.8460698440162889]
GIER(Gap-driven Iterative Enhancement of Responses)は、大規模な言語モデル(LLM)出力を改善するためのフレームワークである。
GIERは、タスクの精度を低下させることなく、合理的な品質、接地、推論アライメントを改善する。
本分析は,抽象的な概念的ギャップを解釈できるだけでなく,具体的な推論改善に変換できることを示す。
論文 参考訳(メタデータ) (2025-08-30T02:54:08Z) - Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。