論文の概要: PustakAI: Curriculum-Aligned and Interactive Textbooks Using Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10002v2
- Date: Fri, 14 Nov 2025 07:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:02.19624
- Title: PustakAI: Curriculum-Aligned and Interactive Textbooks Using Large Language Models
- Title(参考訳): PustakAI:大規模言語モデルを用いたカリキュラムと対話型教科書
- Authors: Shivam Sharma, Riya Naik, Tejas Gawas, Heramb Patil, Kunal Korgaonkar,
- Abstract要約: LLM(Large Language Models)は、人間のようなコンテンツを理解し、生成する際、顕著な能力を示す。
我々は多くのインドの言語で「本」を意味する"PustakAI"footnotePustak"の枠組みを提示する。
メタプロンプト,少数ショット,CoTスタイルプロンプトなど,さまざまなプロンプト技術を用いてデータセットを評価する。
- 参考スコア(独自算出の注目度): 4.419156740280761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in understanding and generating human-like content. This has revolutionized various sectors such as healthcare, software development, and education. In education, LLMs offer potential for personalized and interactive learning experiences, especially in regions with limited teaching resources. However, adapting these models effectively to curriculum-specific content, such as the National Council of Educational Research and Training (NCERT) syllabus in India, presents unique challenges in terms of accuracy, alignment, and pedagogical relevance. In this paper, we present the framework "PustakAI"\footnote{Pustak means `book' in many Indian languages.} for the design and evaluation of a novel question-answering dataset "NCERT-QA" aligned with the NCERT curriculum for English and Science subjects of grades 6 to 8. We classify the curated QA pairs as Factoid, Inferential, and Others (evaluative and reasoning). We evaluate the dataset with various prompting techniques, such as meta-prompt, few-shot, and CoT-style prompting, using diverse evaluation metrics to understand which approach aligns more efficiently with the structure and demands of the curriculum. Along with the usability of the dataset, we analyze the strengths and limitations of current open-source LLMs (Gemma3:1b, Llama3.2:3b, and Nemotron-mini:4b) and high-end LLMs (Llama-4-Scout-17B and Deepseek-r1-70B) as AI-based learning tools in formal education systems.
- Abstract(参考訳): LLM(Large Language Models)は、人間のようなコンテンツを理解し、生成する際、顕著な能力を示す。
これは医療、ソフトウェア開発、教育といった様々な分野に革命をもたらした。
教育において、LLMはパーソナライズされたインタラクティブな学習体験、特に限られた教育資源を持つ地域での可能性を提供する。
しかし、インドのNCERT (National Council of Educational Research and Training) syllabus のようなカリキュラム固有のコンテンツにこれらのモデルを効果的に適用することは、正確性、アライメント、教育的関連性の点でユニークな課題を提示している。
本稿では,多くのインドの言語で「本」を意味する"PustakAI"\footnote{Pustak"というフレームワークを提案する。
NCERT-QAは,6年生から8年生までの英語・科学科のNCERTカリキュラムに適合する新しい質問応答データセット"NCERT-QA"の設計と評価を行う。
得られたQAペアをFactoid, Inferential, Others(評価と推論)に分類する。
メタプロンプト,少数ショット,CoTスタイルのプロンプトなど,さまざまなプロンプト技術を用いてデータセットを評価し,カリキュラムの構造や要求にどのアプローチがより効率的に適合しているかを理解するために,多様な評価指標を用いた。
データセットのユーザビリティとともに、私たちは、フォーマルな教育システムにおけるAIベースの学習ツールとして、現在のオープンソースLLM(Gemma3:1b、Llama3.2:3b、Nemotron-mini:4b)とハイエンドLLM(Llama-4-Scout-17B、Deepseek-r1-70B)の長所と短所を分析します。
関連論文リスト
- MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks [0.0]
本研究では, バイリンガル (英語-ルーマニア語) マルチモーダル (テキストと画像) による複数質問のデータセットを提案する。
我々のデータセットの特長は、問題のいくつかが論文の推論で簡単に解けるように考えられているのに対して、他の方法ではより効率的であることです。
論文 参考訳(メタデータ) (2025-07-03T20:43:28Z) - Benchmarking the Pedagogical Knowledge of Large Language Models [4.417539128489408]
本稿では,その教育的知識に基づいて,大規模言語モデルを評価するための新しいデータセットであるThe Pedagogy Benchmarkを紹介する。
これらのベンチマークは、教師のための専門的開発試験から得られた、慎重にキュレートされた質問に基づいて構築されている。
本報告では, 教育的知識に関する質問に対して, 精度が28%から89%の範囲で, 97モデルの結果を報告する。
論文 参考訳(メタデータ) (2025-06-23T14:49:01Z) - MALAMUTE: A Multilingual, Highly-granular, Template-free, Education-based Probing Dataset [0.0]
言語モデル(LM)は様々な広い領域で優れている。
彼らは特定の、きめ細かい知識の領域で習熟を証明しなければならない。
MALAMUTEは教育ベースの最初のクローゼスタイルのデータセットである。
論文 参考訳(メタデータ) (2024-12-13T12:46:33Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。