論文の概要: Leveraging Large Language Models for Concept Graph Recovery and Question
Answering in NLP Education
- arxiv url: http://arxiv.org/abs/2402.14293v1
- Date: Thu, 22 Feb 2024 05:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:22:31.022486
- Title: Leveraging Large Language Models for Concept Graph Recovery and Question
Answering in NLP Education
- Title(参考訳): NLP教育における概念グラフ復元と質問応答のための大規模言語モデルの活用
- Authors: Rui Yang, Boming Yang, Sixun Ouyang, Tianwei She, Aosong Feng, Yuang
Jiang, Freddy Lecue, Jinghui Lu, Irene Li
- Abstract要約: 大規模言語モデル(LLM)は、テキスト生成タスクにおいて有望であることを示す。
本研究は,概念グラフの回復と質問応答(QA)に焦点を当てる。
TutorQAタスクでは、LLMは最大26%のF1スコア向上を達成する。
- 参考スコア(独自算出の注目度): 14.908333207564574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the domain of Natural Language Processing (NLP), Large Language Models
(LLMs) have demonstrated promise in text-generation tasks. However, their
educational applications, particularly for domain-specific queries, remain
underexplored. This study investigates LLMs' capabilities in educational
scenarios, focusing on concept graph recovery and question-answering (QA). We
assess LLMs' zero-shot performance in creating domain-specific concept graphs
and introduce TutorQA, a new expert-verified NLP-focused benchmark for
scientific graph reasoning and QA. TutorQA consists of five tasks with 500 QA
pairs. To tackle TutorQA queries, we present CGLLM, a pipeline integrating
concept graphs with LLMs for answering diverse questions. Our results indicate
that LLMs' zero-shot concept graph recovery is competitive with supervised
methods, showing an average 3% F1 score improvement. In TutorQA tasks, LLMs
achieve up to 26% F1 score enhancement. Moreover, human evaluation and analysis
show that CGLLM generates answers with more fine-grained concepts.
- Abstract(参考訳): 自然言語処理(NLP)の分野では、Large Language Models(LLM)がテキスト生成タスクにおいて有望であることを示す。
しかし、その教育的応用、特にドメイン特化クエリは、まだ探索されていない。
本研究では,LLMの学習シナリオにおける能力について検討し,概念グラフの回復と質問応答(QA)に着目した。
ドメイン固有の概念グラフを作成する際のLCMのゼロショット性能を評価し,科学グラフ推論とQAのための新たな専門家によるNLP中心のベンチマークであるTutorQAを紹介する。
TutorQAは500QAペアの5つのタスクで構成される。
TutorQAクエリに対処するために、さまざまな質問に答えるために、概念グラフとLLMを統合するパイプラインであるCGLLMを提案する。
以上の結果から, LLMのゼロショット概念グラフ復元は教師付き手法と競合し, 平均3%のF1スコア向上を示した。
TutorQAタスクでは、LLMは最大26%のF1スコア向上を達成する。
さらに、人間の評価と分析により、CGLLMはよりきめ細かい概念で回答を生成することが示された。
関連論文リスト
- CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - An Empirical Study of Pre-trained Language Models in Simple Knowledge
Graph Question Answering [28.31377197194905]
大規模事前学習型言語モデル(PLM)は、最近大きな成功を収め、自然言語処理(NLP)のマイルストーンとなった。
近年、知識グラフ質問応答 (KGQA) の研究において、BERT やその変種は KGQA モデルにおいて必要となっている。
我々は、KGQAにおける異なるPLMの性能を比較し、より大規模なKGに対する3つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-03-18T08:57:09Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。