論文の概要: Comparison of Large Language Models for Generating Contextually Relevant Questions
- arxiv url: http://arxiv.org/abs/2407.20578v2
- Date: Sun, 15 Sep 2024 07:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 01:06:42.697470
- Title: Comparison of Large Language Models for Generating Contextually Relevant Questions
- Title(参考訳): 文脈関連質問生成のための大規模言語モデルの比較
- Authors: Ivo Lodovico Molina, Valdemar Švábenský, Tsubasa Minematsu, Li Chen, Fumiya Okubo, Atsushi Shimada,
- Abstract要約: GPT-3.5、Llama 2-Chat 13B、T5 XXLは、微調整なしで大学のスライドテキストから質問を生成する能力を比較する。
その結果, GPT-3.5 と Llama 2-Chat 13B は T5 XXL よりも小さなマージン, 特に明瞭度と質問応答アライメントで優れていた。
- 参考スコア(独自算出の注目度): 6.080820450677854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores the effectiveness of Large Language Models (LLMs) for Automatic Question Generation in educational settings. Three LLMs are compared in their ability to create questions from university slide text without fine-tuning. Questions were obtained in a two-step pipeline: first, answer phrases were extracted from slides using Llama 2-Chat 13B; then, the three models generated questions for each answer. To analyze whether the questions would be suitable in educational applications for students, a survey was conducted with 46 students who evaluated a total of 246 questions across five metrics: clarity, relevance, difficulty, slide relation, and question-answer alignment. Results indicate that GPT-3.5 and Llama 2-Chat 13B outperform Flan T5 XXL by a small margin, particularly in terms of clarity and question-answer alignment. GPT-3.5 especially excels at tailoring questions to match the input answers. The contribution of this research is the analysis of the capacity of LLMs for Automatic Question Generation in education.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) の教育環境における自動質問生成における有効性について検討した。
3つのLSMを比較し、微調整なしで大学のスライドテキストから質問を作成できる。
まず、Llama 2-Chat 13Bを用いて、スライドから回答フレーズを抽出し、3つのモデルが回答毎に質問を生成した。
学生の教育的応用に適合するかどうかを調査するため, 学生46名を対象に, 明瞭度, 妥当性, 難易度, スライド関係, 質問・回答アライメントの5つの指標について, 合計246問を調査した。
その結果, GPT-3.5 と Llama 2-Chat 13B は Flan T5 XXL よりも小さなマージン, 特に明瞭度と質問応答アライメントで優れていた。
GPT-3.5は特に、入力された回答にマッチする質問の調整に優れる。
この研究の貢献は、教育における自動質問生成のためのLLMの能力の分析である。
関連論文リスト
- Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Which questions should I answer? Salience Prediction of Inquisitive Questions [118.097974193544]
非常に健全な質問は、同じ記事で経験的に答えられる可能性が高いことを示す。
質問に対する回答が,ニュースの要約品質の指標であることを示すことで,我々の知見をさらに検証する。
論文 参考訳(メタデータ) (2024-04-16T21:33:05Z) - Explainable Multi-hop Question Generation: An End-to-End Approach without Intermediate Question Labeling [6.635572580071933]
マルチホップ質問生成は、複数の文書に対して多段階の推論を必要とする複雑な質問を生成することを目的としている。
従来の研究では、コンテキスト文書の表現に基づいて質問をデコードするエンド・ツー・エンド・モデルが主流であった。
本稿では,逐次書き直しによる質問の複雑さを増大させるエンドツーエンドの質問書き直しモデルを提案する。
論文 参考訳(メタデータ) (2024-03-31T06:03:54Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Prompt-Engineering and Transformer-based Question Generation and
Evaluation [0.0]
本稿では,変換器モデルを用いてテキストデータから質問を生成する最良の方法を見つけ,エンジニアリングを急ぐことを目的とする。
生成した質問は、SQuADデータセットのベースライン質問と比較し、4つの異なるプロンプトの有効性を評価した。
論文 参考訳(メタデータ) (2023-10-29T01:45:30Z) - Are Large Language Models Fit For Guided Reading? [6.85316573653194]
本稿では,大規模言語モデルが教育指導読解に参加する能力について考察する。
入力テキストから意味のある質問を生成し、多様な質問を生成し、学生が再読むべきテキストの一部を推薦する能力を評価する。
論文 参考訳(メタデータ) (2023-05-18T02:03:55Z) - Who's the Best Detective? LLMs vs. MLs in Detecting Incoherent Fourth
Grade Math Answers [0.0]
3大言語モデル(LLM)を用いた数学における4年生の応答の分析
その結果,LLMは不整合解の検出において機械学習(ML)よりも優れていた。
論文 参考訳(メタデータ) (2023-04-21T21:25:30Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - "What makes a question inquisitive?" A Study on Type-Controlled
Inquisitive Question Generation [35.87102025753666]
質問生成のためのタイプ制御フレームワークを提案する。
私たちは、ソーステキストから描画しながら、特定のタイプに固執する様々な質問を生成します。
また、生成した集合から1つの質問を選択する戦略についても検討する。
論文 参考訳(メタデータ) (2022-05-17T02:05:50Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。