論文の概要: Retrieval-augmented Generation to Improve Math Question-Answering:
Trade-offs Between Groundedness and Human Preference
- arxiv url: http://arxiv.org/abs/2310.03184v2
- Date: Sat, 11 Nov 2023 01:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:26:52.665983
- Title: Retrieval-augmented Generation to Improve Math Question-Answering:
Trade-offs Between Groundedness and Human Preference
- Title(参考訳): 数学質問改善のための検索強化生成:地味と人の嗜好のトレードオフ
- Authors: Zachary Levonian, Chenglu Li, Wangda Zhu, Anoushka Gade, Owen Henkel,
Millie-Ellen Postle, Wanli Xing
- Abstract要約: 我々は、高品質なオープンソースの数学教科書からコンテンツを検索して利用し、実際の学生の質問に対する応答を生成するプロンプトを設計する。
マルチ条件サーベイを実施し,中学代数学と幾何学QAのためのRAGシステムの有効性を評価した。
我々は、RAGは応答品質を向上させることができるが、数学のQAシステムの設計者は、学生が好む応答と、特定の教育資源に密接に適合する応答とのトレードオフを検討する必要があると論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For middle-school math students, interactive question-answering (QA) with
tutors is an effective way to learn. The flexibility and emergent capabilities
of generative large language models (LLMs) has led to a surge of interest in
automating portions of the tutoring process - including interactive QA to
support conceptual discussion of mathematical concepts. However, LLM responses
to math questions can be incorrect or mismatched to the educational context -
such as being misaligned with a school's curriculum. One potential solution is
retrieval-augmented generation (RAG), which involves incorporating a vetted
external knowledge source in the LLM prompt to increase response quality. In
this paper, we designed prompts that retrieve and use content from a
high-quality open-source math textbook to generate responses to real student
questions. We evaluate the efficacy of this RAG system for middle-school
algebra and geometry QA by administering a multi-condition survey, finding that
humans prefer responses generated using RAG, but not when responses are too
grounded in the textbook content. We argue that while RAG is able to improve
response quality, designers of math QA systems must consider trade-offs between
generating responses preferred by students and responses closely matched to
specific educational resources.
- Abstract(参考訳): 中学生にとって、教師との対話型質問応答(QA)は効果的な学習方法である。
生成的大言語モデル(LLM)の柔軟性と創発的能力は、数学的概念に関する概念的議論を支援する対話型QAを含む、学習プロセスの一部を自動化することへの関心の高まりにつながっている。
しかし、数学の質問に対する LLM の応答は、学校のカリキュラムと不一致であるなど、教育の文脈に正しく、あるいは不一致している可能性がある。
潜在的な解決策の1つは検索強化生成(RAG)であり、LLMプロンプトに精査された外部知識ソースを組み込んで応答品質を向上させる。
本稿では,高品質なオープンソース教科書からコンテンツを検索し,活用するプロンプトを設計し,実際の学生の質問に対する回答を生成する。
我々は,中学代数学・幾何学QAにおけるRAGシステムの有効性を,多条件サーベイによって評価し,RAGを用いて生成した応答をヒトが好むが,教科書の内容に応答があまりに根付いていない場合ではないことを示した。
我々は、RAGは応答品質を向上させることができるが、数学のQAシステムの設計者は、学生が好む応答と、特定の教育資源と密接に一致する応答とのトレードオフを検討する必要があると論じる。
関連論文リスト
- Research on the Application of Large Language Models in Automatic Question Generation: A Case Study of ChatGLM in the Context of High School Information Technology Curriculum [3.0753648264454547]
モデルは多様な質問を生成するためにガイドされ、ドメインの専門家によって包括的に評価される。
以上の結果から,ChatGLMは人為的な質問に対して,明快さと教師の利用意欲で優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T11:38:32Z) - Multimodal Reranking for Knowledge-Intensive Visual Question Answering [77.24401833951096]
回答生成のための知識候補のランク付け品質を向上させるためのマルチモーダル・リランカを提案する。
OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2024-07-17T02:58:52Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Automatic question generation for propositional logical equivalences [6.221146613622175]
そこで我々は,各学生に対して適切な質問を生成できる手法を開発し,実装する。
従来の研究では、妥当性、ユーザ定義の困難さ、パーソナライズされた問題生成を含む、教育におけるAQGフレームワークについて研究されてきた。
我々の新しいAQGアプローチは、一年生のコンピュータサイエンス学生にとってコアコースである離散数学に論理的等価性問題をもたらす。
論文 参考訳(メタデータ) (2024-05-09T02:44:42Z) - How Teachers Can Use Large Language Models and Bloom's Taxonomy to
Create Educational Quizzes [5.487297537295827]
本稿では,Bloomの分類学から得られた学習目標を問う,大規模言語モデルに基づくQGアプローチを適用する。
その結果、教師は自動生成された質問でクイズを書くことを好んでおり、手書き版に比べてクイズの品質が損なわれていないことがわかった。
論文 参考訳(メタデータ) (2024-01-11T13:47:13Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Automated Distractor and Feedback Generation for Math Multiple-choice
Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。
これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。
本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:03:04Z) - Covering Uncommon Ground: Gap-Focused Question Generation for Answer
Assessment [75.59538732476346]
このようなギャップに着目した質問(GFQ)を自動生成する問題に着目する。
タスクを定義し、優れたGFQの所望の側面を強調し、これらを満たすモデルを提案する。
論文 参考訳(メタデータ) (2023-07-06T22:21:42Z) - UKP-SQuARE: An Interactive Tool for Teaching Question Answering [61.93372227117229]
質問応答の指数的増加(QA)は、あらゆる自然言語処理(NLP)コースにおいて必須のトピックとなっている。
本稿では、QA教育のプラットフォームとしてUKP-SQuAREを紹介する。
学生は様々な視点から様々なQAモデルを実行、比較、分析することができる。
論文 参考訳(メタデータ) (2023-05-31T11:29:04Z) - Automatic Generation of Socratic Subquestions for Teaching Math Word
Problems [16.97827669744673]
本稿では,大言語モデル (LM) が数学用語の問題解決を導くためのシーケンシャルな質問を生成する能力について検討する。
自動品質評価と人的品質評価の両方において,所望の質問特性に制約されたLMが優れた質問を生成することがわかった。
その結果,課題の難易度は,質問が人間のパフォーマンスを損なうか否かを判断する上で重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2022-11-23T10:40:22Z) - Reinforced Multi-task Approach for Multi-hop Question Generation [47.15108724294234]
我々は,その文脈における支援事実に基づいて,関連する質問を生成することを目的としたマルチホップ質問生成を取り上げている。
我々は,質問生成を導くために,回答認識支援事実予測の補助タスクを備えたマルチタスク学習を採用する。
マルチホップ質問応答データセットHotPotQAの実験を通して,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-04-05T10:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。