論文の概要: Efficient Learning Content Retrieval with Knowledge Injection
- arxiv url: http://arxiv.org/abs/2412.00125v1
- Date: Thu, 28 Nov 2024 12:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:11.669664
- Title: Efficient Learning Content Retrieval with Knowledge Injection
- Title(参考訳): 知識注入による効率的な学習内容検索
- Authors: Batuhan Sariturk, Rabia Bayraktar, Merve Elmas Erdem,
- Abstract要約: そこで本研究では,学習者の学習コンテンツ提供を支援するために,Phi言語モデルのバージョンを利用して,限られたリソースを必要とするドメイン固有アプリケーションを提案する。
微調整に必要なデータはHuaweiタレントプラットフォームから取得した。
RAGシステムは500対のQ&Aペアによって微調整されたモデルをサポートするために使用された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With the rise of online education platforms, there is a growing abundance of educational content across various domain. It can be difficult to navigate the numerous available resources to find the most suitable training, especially in domains that include many interconnected areas, such as ICT. In this study, we propose a domain-specific chatbot application that requires limited resources, utilizing versions of the Phi language model to help learners with educational content. In the proposed method, Phi-2 and Phi-3 models were fine-tuned using QLoRA. The data required for fine-tuning was obtained from the Huawei Talent Platform, where courses are available at different levels of expertise in the field of computer science. RAG system was used to support the model, which was fine-tuned by 500 Q&A pairs. Additionally, a total of 420 Q&A pairs of content were extracted from different formats such as JSON, PPT, and DOC to create a vector database to be used in the RAG system. By using the fine-tuned model and RAG approach together, chatbots with different competencies were obtained. The questions and answers asked to the generated chatbots were saved separately and evaluated using ROUGE, BERTScore, METEOR, and BLEU metrics. The precision value of the Phi-2 model supported by RAG was 0.84 and the F1 score was 0.82. In addition to a total of 13 different evaluation metrics in 4 different categories, the answers of each model were compared with the created content and the most appropriate method was selected for real-life applications.
- Abstract(参考訳): オンライン教育プラットフォームの普及に伴い、様々な分野の教育コンテンツが増えている。
多くの利用可能なリソースをナビゲートして、特にICTのような多くの相互接続領域を含む領域において、最も適切なトレーニングを見つけることは困難である。
本研究では,学習者が学習内容の学習を支援するために,Phi言語モデルのバージョンを利用して,限られたリソースを必要とするドメイン固有のチャットボットアプリケーションを提案する。
提案手法では,QLoRAを用いてPhi-2およびPhi-3モデルを微調整した。
微調整に必要なデータはHuawei Talent Platformから取得され、コンピュータ科学の分野でさまざまなレベルの専門知識でコースが利用できる。
RAGシステムは500対のQ&Aペアによって微調整されたモデルをサポートするために使用された。
さらに、RAGシステムで使用されるベクトルデータベースを作成するために、JSON、PPT、DOCといったさまざまなフォーマットから、合計420のQ&Aペアのコンテンツが抽出された。
微調整モデルとRAGアプローチを併用することにより,異なる能力を持つチャットボットが得られた。
生成されたチャットボットに対する質問と回答は別々に保存され、ROUGE、BERTScore、METEOR、BLEUメトリクスを使用して評価された。
RAGが支持したPhi-2モデルの精度は0.84であり、F1スコアは0.82であった。
4つのカテゴリの合計13の異なる評価指標に加えて、各モデルの回答を作成したコンテンツと比較し、現実のアプリケーションに最も適した方法を選択した。
関連論文リスト
- Teaching Smaller Language Models To Generalise To Unseen Compositional Questions (Full Thesis) [0.0]
私たちは、検索したコンテキストを推論する能力を注入することで、さまざまな質問に答えるようにモデルを訓練します。
2つの知識ソースからコンテキストを取得し、ウィキペディアコーパスは、新しい拡張を持つマルチホップ高密度検索システムを用いてクエリし、より大規模な言語モデルから生成された論理から、より低いリソース環境下での動作を最適化した。
論文 参考訳(メタデータ) (2024-11-25T23:25:34Z) - EduNLP: Towards a Unified and Modularized Library for Educational Resources [78.8523961816045]
我々はEduNLPという,統一された,モジュール化された,広範なライブラリを紹介し,教育資源の理解に焦点をあてる。
このライブラリでは、ワークフロー全体を4つのキーモジュールに分離し、データ構成、処理、モデル実装、モデル評価など、一貫したインターフェースを提供します。
現在のバージョンでは、主に4つのカテゴリから10の典型的なモデルを提供し、教育領域における5つのダウンストリーム評価タスクを、ユーザの使用に対して8つの被験者に提供します。
論文 参考訳(メタデータ) (2024-06-03T12:45:40Z) - LLM2KB: Constructing Knowledge Bases using instruction tuned context
aware Large Language Models [0.8702432681310401]
本稿では,大規模言語モデルを用いた知識ベース構築システム LLM2KB を提案する。
ISWC 2023で開かれたLM-KBCチャレンジでは,21関係の平均F1スコアが0.6185に達した。
論文 参考訳(メタデータ) (2023-08-25T07:04:16Z) - QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。
我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。
我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文 参考訳(メタデータ) (2023-03-30T00:42:07Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - Question-type Identification for Academic Questions in Online Learning
Platform [1.3764085113103222]
本稿では,オンライン学習プラットフォームにおけるコンテンツ理解のステップとしての質問型識別について検討する。
我々は、MCQ(Multiple-Choice Question)やエッセイなどを含む12の質問型クラスを定義した。
このデータセットを用いてBERTベースのアンサンブルモデルを訓練し、このモデルを別個の人間ラベルテストセットで評価した。
論文 参考訳(メタデータ) (2022-11-24T17:28:29Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - A Coarse to Fine Question Answering System based on Reinforcement
Learning [48.80863342506432]
本システムは,多段階質問応答を実現するために,アクタ批判に基づく深層強化学習モデルを用いて設計されている。
我々は、WIKEREADING、WIKIREADING LONG、CNN、SQuADの4つのQAデータセットでモデルをテストし、1.3$%$-1.7$%の精度向上と1.5x-3.4xのトレーニングスピードアップを実証した。
論文 参考訳(メタデータ) (2021-06-01T06:41:48Z) - Educational Question Mining At Scale: Prediction, Analysis and
Personalization [35.42197158180065]
大規模に教育的な問題から洞察を抽出する枠組みを提案する。
我々は最先端のベイズ深層学習法、特に部分変分オートエンコーダ(p-VAE)を利用する。
提案したフレームワークを,数万の質問と数千万の回答をオンライン教育プラットフォームから収集した実世界のデータセットに適用する。
論文 参考訳(メタデータ) (2020-03-12T19:07:49Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。