論文の概要: From Slides to Chatbots: Enhancing Large Language Models with University Course Materials
- arxiv url: http://arxiv.org/abs/2510.22272v1
- Date: Sat, 25 Oct 2025 12:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.013106
- Title: From Slides to Chatbots: Enhancing Large Language Models with University Course Materials
- Title(参考訳): スライドからチャットボットへ:大学教材による大規模言語モデルの強化
- Authors: Tu Anh Dinh, Philipp Nicolas Schumacher, Jan Niehues,
- Abstract要約: 本研究は,大学教材を取り入れることで,コンピュータ科学科におけるLLM性能が向上するかを考察する。
我々は,LLMをコース固有の知識で拡張する2つの戦略,RAG(Retrieval-Augmented Generation)とCPT(Continuous Pre-Training)を比較した。
実験の結果,大学教材のサイズが比較的小さいため,RAGはCPTよりも効率的かつ効率的であることが判明した。
- 参考スコア(独自算出の注目度): 14.450839675608693
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have advanced rapidly in recent years. One application of LLMs is to support student learning in educational settings. However, prior work has shown that LLMs still struggle to answer questions accurately within university-level computer science courses. In this work, we investigate how incorporating university course materials can enhance LLM performance in this setting. A key challenge lies in leveraging diverse course materials such as lecture slides and transcripts, which differ substantially from typical textual corpora: slides also contain visual elements like images and formulas, while transcripts contain spoken, less structured language. We compare two strategies, Retrieval-Augmented Generation (RAG) and Continual Pre-Training (CPT), to extend LLMs with course-specific knowledge. For lecture slides, we further explore a multi-modal RAG approach, where we present the retrieved content to the generator in image form. Our experiments reveal that, given the relatively small size of university course materials, RAG is more effective and efficient than CPT. Moreover, incorporating slides as images in the multi-modal setting significantly improves performance over text-only retrieval. These findings highlight practical strategies for developing AI assistants that better support learning and teaching, and we hope they inspire similar efforts in other educational contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年急速に進歩している。
LLMの応用の1つは、教育環境における学生の学習を支援することである。
しかし、以前の研究は、LLMが大学レベルのコンピュータサイエンスのコース内でも、正確な質問に答えることに苦慮していることを示している。
本研究では,大学教材を取り入れることで,LLMの性能向上を図る。
重要な課題は、講義のスライドや書き起こしなど、典型的なテキストコーパスとは大きく異なる多様なコース資料を活用することである。
我々は,LLMをコース固有の知識で拡張する2つの戦略,RAG(Retrieval-Augmented Generation)とCPT(Continuous Pre-Training)を比較した。
講演スライドではさらにマルチモーダルなRAG手法を探求し,抽出した内容を画像形式で生成者に提示する。
実験の結果,大学教材のサイズが比較的小さいため,RAGはCPTよりも効率的かつ効率的であることが判明した。
さらに、マルチモーダル設定にスライドを画像として組み込むことで、テキストのみの検索よりもパフォーマンスが大幅に向上する。
これらの発見は、学習と教育を支援するAIアシスタントを開発するための実践的戦略を強調しており、他の教育的文脈において同様の取り組みを刺激することを願っている。
関連論文リスト
- LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Cross-Data Knowledge Graph Construction for LLM-enabled Educational Question-Answering System: A Case Study at HCMUT [2.8000537365271367]
大規模言語モデル(LLM)は活発な研究トピックとして現れている。
LLMはイベントの記憶、新しい情報の導入、ドメイン固有の問題や幻覚への対処において課題に直面している。
本稿では,複数のデータソースから知識グラフを自動的に構築する手法を提案する。
論文 参考訳(メタデータ) (2024-04-14T16:34:31Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。