論文の概要: Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2402.05128v1
- Date: Mon, 5 Feb 2024 11:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 18:11:50.477088
- Title: Enhancing Textbook Question Answering Task with Large Language Models
and Retrieval Augmented Generation
- Title(参考訳): 大規模言語モデルによるテキスト質問応答タスクの強化と検索拡張
- Authors: Hessa Abdulrahman Alawwad, Areej Alhothali, Usman Naseem, Ali
Alkhathlan, Amani Jamal
- Abstract要約: 本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 3.948068081583197
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Textbook question answering (TQA) is a challenging task in artificial
intelligence due to the complex nature of context and multimodal data. Although
previous research has significantly improved the task, there are still some
limitations including the models' weak reasoning and inability to capture
contextual information in the lengthy context. The introduction of large
language models (LLMs) has revolutionized the field of AI, however, directly
applying LLMs often leads to inaccurate answers. This paper proposes a
methodology that handle the out-of-domain scenario in TQA where concepts are
spread across different lessons by incorporating the retrieval augmented
generation (RAG) technique and utilize transfer learning to handle the long
context and enhance reasoning abilities. Through supervised fine-tuning of the
LLM model Llama-2 and the incorporation of RAG, our architecture outperforms
the baseline, achieving a 4.12% accuracy improvement on validation set and
9.84% on test set for non-diagram multiple-choice questions.
- Abstract(参考訳): テキスト質問応答(TQA)は、コンテキストとマルチモーダルデータの複雑な性質のため、人工知能において難しい課題である。
これまでの研究はタスクを大幅に改善したが、モデルの弱い推論や、長いコンテキストでコンテキスト情報をキャプチャできないなど、いくつかの制限がある。
大規模言語モデル(LLM)の導入は、AIの分野に革命をもたらしたが、直接LLMを適用することは、しばしば不正確な答えをもたらす。
本稿では,検索拡張生成(rag)手法を取り入れ,トランスファー学習を長文文脈の処理に活用し,推論能力を高めることで,異なる教訓にまたがる概念が広まるtqaの領域外シナリオを扱う手法を提案する。
LLMモデルLlama-2の微調整とRAGの導入により、アーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現した。
関連論文リスト
- Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues [8.797350517975477]
ビデオテキストベースの視覚的質問応答 (Video TextVQA) は、あるビデオにおいて、共同でテキストによる推論と視覚情報によって質問に答えることを目的とした実践的なタスクである。
画像からビデオへ生成するTextVQAフレームワークをより良く拡張するTEA(stands for textbfTrack thbfE bftextA languageser'')手法を提案する。
論文 参考訳(メタデータ) (2024-12-17T03:06:12Z) - Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach [2.744781070632757]
確立されたVQAフレームワーク内の局所的なテキスト機能に焦点をあてた、長距離依存を利用したモデルと、よりシンプルなモデルの比較を行う。
本稿では,畳み込み層を組み込んだモデルであるConvGRUを提案する。
VQA-v2データセットでテストされたConvGRUでは、NumberやCountといった質問タイプに対するベースラインよりも、わずかながら一貫性のある改善が示されている。
論文 参考訳(メタデータ) (2024-05-01T12:39:35Z) - Harnessing the Power of Prompt-based Techniques for Generating
School-Level Questions using Large Language Models [0.5459032912385802]
本稿では,プロンプトベースの手法を用いて記述的および推論的質問を生成する手法を提案する。
我々は,NCERT教科書のリッチコンテンツを活用することで,学校レベルの課題を対象とした新しいQGデータセットEduProbeをキュレートする。
変換器をベースとした大規模言語モデルを用いて,いくつかのプロンプトベースのQG手法について検討する。
論文 参考訳(メタデータ) (2023-12-02T05:13:28Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - TSQA: Tabular Scenario Based Question Answering [14.92495213480887]
シナリオベースの質問応答(SQA)が研究の関心を集めている。
本研究を支援するため,GeoTSQAを構築した。
テーブル・トゥ・テキストの新しいジェネレータであるTTGenにより、最新のMRCメソッドを拡張します。
論文 参考訳(メタデータ) (2021-01-14T02:00:33Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。