論文の概要: ChaTA: Towards an Intelligent Question-Answer Teaching Assistant using
Open-Source LLMs
- arxiv url: http://arxiv.org/abs/2311.02775v2
- Date: Mon, 13 Nov 2023 16:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:39:20.359122
- Title: ChaTA: Towards an Intelligent Question-Answer Teaching Assistant using
Open-Source LLMs
- Title(参考訳): ChaTA:オープンソースLLMを用いた知的質問応答アシスタントを目指して
- Authors: Yann Hicke, Anmol Agarwal, Qianou Ma, Paul Denny
- Abstract要約: 我々は、オープンソースのLarge Language Models(LLM)を活用して、データのプライバシを確保する革新的なソリューションを紹介します。
提案手法は、検索強化生成(RAG)、教師付き微調整(SFT)、人間の嗜好データからの学習などの拡張技術を組み合わせたものである。
この研究は、オンラインQAプラットフォームでコースをカスタマイズ可能なインテリジェントQAアシスタントであるCHATAの開発の道を開いた。
- 参考スコア(独自算出の注目度): 2.6513660158945727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Responding to the thousands of student questions on online QA platforms each
semester has a considerable human cost, particularly in computing courses with
rapidly growing enrollments. To address the challenges of scalable and
intelligent question-answering (QA), we introduce an innovative solution that
leverages open-source Large Language Models (LLMs) from the LLaMA-2 family to
ensure data privacy. Our approach combines augmentation techniques such as
retrieval augmented generation (RAG), supervised fine-tuning (SFT), and
learning from human preferences data using Direct Preference Optimization
(DPO). Through extensive experimentation on a Piazza dataset from an
introductory CS course, comprising 10,000 QA pairs and 1,500 pairs of
preference data, we demonstrate a significant 30% improvement in the quality of
answers, with RAG being a particularly impactful addition. Our contributions
include the development of a novel architecture for educational QA, extensive
evaluations of LLM performance utilizing both human assessments and LLM-based
metrics, and insights into the challenges and future directions of educational
data processing. This work paves the way for the development of CHATA, an
intelligent QA assistant customizable for courses with an online QA platform
- Abstract(参考訳): オンラインqaプラットフォームにおける何千もの学生の質問に対して,学期ごとにかなりの人的コストがかかります。
スケーラブルでインテリジェントな質問応答(QA)の課題に対処するため,LLaMA-2ファミリからのオープンソースのLarge Language Models(LLM)を活用して,データのプライバシを確保する革新的なソリューションを提案する。
本手法は,検索拡張生成(rag),教師付き微調整(sft),直接選好最適化(dpo)を用いた人間選好データからの学習といった拡張手法を組み合わせたものである。
1万対のQAペアと1500対の選好データからなるCSコースからPazzaデータセットを広範囲に実験することにより、回答の品質が30%向上し、RAGは特に影響のある追加であることを示す。
我々の貢献には、教育用QAのための新しいアーキテクチャの開発、人間の評価とLLMベースのメトリクスの両方を利用したLLMパフォーマンスの広範な評価、教育データ処理の課題と今後の方向性に関する洞察が含まれる。
この研究は、オンラインQAプラットフォームでコースをカスタマイズ可能なインテリジェントQAアシスタントCHATAの開発の道を開く。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents [78.15899922698631]
MAIC(Massive AI-empowered Course)は、LLM駆動のマルチエージェントシステムを活用して、AIが強化された教室を構築するオンライン教育の新たな形態である。
中国一の大学である清華大学で予備的な実験を行う。
論文 参考訳(メタデータ) (2024-09-05T13:22:51Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - QACP: An Annotated Question Answering Dataset for Assisting Chinese
Python Programming Learners [10.90557801193242]
本稿では,Python学習者を対象とした中国語質問・回答データセットを提案する。
オンラインプログラミング教育の有効性と品質を高めるために設計されている。
論文 参考訳(メタデータ) (2024-01-30T13:11:23Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Results and Insights from Diagnostic Questions: The NeurIPS 2020
Education Challenge [40.96530220202453]
このコンペティションは、教育学的に効果的で多目的質問(MCQ)である教育診断に関するものである。
大規模な学習シナリオにおいて、自動パーソナライズされた学習を促進するために、MCQに対する数億の回答に関するデータをどのように使用できるのか?
約400チームが約4000の応募を提出したNeurIPSコンペティションについて報告します。
論文 参考訳(メタデータ) (2021-04-08T20:09:58Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - Educational Question Mining At Scale: Prediction, Analysis and
Personalization [35.42197158180065]
大規模に教育的な問題から洞察を抽出する枠組みを提案する。
我々は最先端のベイズ深層学習法、特に部分変分オートエンコーダ(p-VAE)を利用する。
提案したフレームワークを,数万の質問と数千万の回答をオンライン教育プラットフォームから収集した実世界のデータセットに適用する。
論文 参考訳(メタデータ) (2020-03-12T19:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。