論文の概要: SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation
- arxiv url: http://arxiv.org/abs/2405.09939v2
- Date: Wed, 10 Jul 2024 01:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 20:59:57.998066
- Title: SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation
- Title(参考訳): SciQAG: きめ細かい評価を伴うデータセットを自動生成するフレームワーク
- Authors: Yuwei Wan, Yixuan Liu, Aswathy Ajith, Clara Grazian, Bram Hoex, Wenjie Zhang, Chunyu Kit, Tong Xie, Ian Foster,
- Abstract要約: SciQAGは、大規模言語モデル(LLM)に基づく科学文献の大規模なコーパスから高品質な科学質問応答ペアを自動生成するフレームワークである。
我々は,24分野にわたる22,743の科学論文から抽出された188,042のQAペアを含む大規模で高品質な科学QAデータセットを構築した。
SciQAG-24DはLLMの科学質問応答能力を評価するための新しいベンチマークタスクである。
- 参考スコア(独自算出の注目度): 11.129800893611646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SciQAG, a novel framework for automatically generating high-quality science question-answer pairs from a large corpus of scientific literature based on large language models (LLMs). SciQAG consists of a QA generator and a QA evaluator, which work together to extract diverse and research-level questions and answers from scientific papers. Utilizing this framework, we construct a large-scale, high-quality, open-ended science QA dataset containing 188,042 QA pairs extracted from 22,743 scientific papers across 24 scientific domains. We also introduce SciQAG-24D, a new benchmark task designed to evaluate the science question-answering ability of LLMs. Extensive experiments demonstrate that fine-tuning LLMs on the SciQAG dataset significantly improves their performance on both open-ended question answering and scientific tasks. To foster research and collaboration, we make the datasets, models, and evaluation codes publicly available, contributing to the advancement of science question answering and developing more interpretable and reasoning-capable AI systems.
- Abstract(参考訳): SciQAGは,大規模言語モデル(LLM)に基づく学術文献の大規模コーパスから,高品質な科学質問応答ペアを自動生成する新しいフレームワークである。
SciQAGはQAジェネレータとQA評価器で構成されており、科学論文から多様な研究レベルの質問や回答を抽出するために協力している。
この枠組みを利用して、24の科学領域にわたる22,743の科学論文から抽出された188,042のQAペアを含む大規模で高品質な科学QAデータセットを構築した。
SciQAG-24DはLLMの科学質問応答能力を評価するための新しいベンチマークタスクである。
大規模な実験により、SciQAGデータセット上の微調整LDMは、オープンエンドの質問応答と科学的タスクの両方のパフォーマンスを大幅に改善することが示された。
研究とコラボレーションを促進するため、我々はデータセット、モデル、評価コードを公開し、科学的な質問応答の進歩に寄与し、より解釈可能で推論可能なAIシステムの開発に寄与する。
関連論文リスト
- SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - MMSci: A Multimodal Multi-Discipline Dataset for PhD-Level Scientific Comprehension [59.41495657570397]
我々は、Nature Communications Journalsに掲載されたオープンアクセス科学論文から、マルチモーダルで多分野のデータセットを収集した。
このデータセットは72の科学分野にまたがっており、多様性と品質の両方を保証している。
科学的な数字や内容を理解する上でLMMの能力を総合的に評価するために,様々なタスクと設定のベンチマークを作成した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
本稿では,250以上の科学LLMを包括的に調査し,それらの共通点と相違点について考察するとともに,各分野とモダリティに関する事前学習データセットと評価タスクを要約する。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation [50.061029816288936]
本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。
主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。
質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。
SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。
論文 参考訳(メタデータ) (2024-05-14T17:54:17Z) - PQA: Zero-shot Protein Question Answering for Free-form Scientific
Enquiry with Large Language Models [5.062600294117055]
本稿では, ゼロショットタンパク質質問回答(PQA)の新たな課題について紹介する。
未確認のタンパク質配列と自然言語の問題を考えると、その課題は科学的に正確な答えを提供することである。
我々はPQAモデルトレーニングのための最初の特別なデータセットを寄贈し、257Kのタンパク質配列に1.97Mの科学的質問応答ペアを付加した。
論文 参考訳(メタデータ) (2024-02-21T09:38:17Z) - PaperQA: Retrieval-Augmented Generative Agent for Scientific Research [41.9628176602676]
本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
論文 参考訳(メタデータ) (2023-12-08T18:50:20Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - SciEval: A Multi-Level Large Language Model Evaluation Benchmark for
Scientific Research [12.325362762629782]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
論文 参考訳(メタデータ) (2023-08-25T03:05:33Z) - Around the GLOBE: Numerical Aggregation Question-Answering on
Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks [0.934612743192798]
本稿では,系統樹の数値集約QAのための新しいエンドツーエンド手法を提案する。
提案されたアーキテクチャであるGLOBEは、このタスクの精度を87%向上させることで、最先端のモデルとパイプラインを上回っている。
本研究は系譜情報センターや博物館に実際的な意味を持つ可能性がある。
論文 参考訳(メタデータ) (2023-07-30T12:09:00Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。