Fugu-MT 論文翻訳(概要): SciQAG: A Framework for Auto-Generated Scientific Question Answering Dataset with Fine-grained Evaluation

論文の概要: SciQAG: A Framework for Auto-Generated Scientific Question Answering Dataset with Fine-grained Evaluation

arxiv url: http://arxiv.org/abs/2405.09939v1
Date: Thu, 16 May 2024 09:42:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 14:41:47.992344
Title: SciQAG: A Framework for Auto-Generated Scientific Question Answering Dataset with Fine-grained Evaluation
Title（参考訳）: SciQAG: きめ細かい評価を伴う科学的質問回答データセットの自動生成フレームワーク
Authors: Yuwei Wan, Aswathy Ajith, Yixuan Liu, Ke Lu, Clara Grazian, Bram Hoex, Wenjie Zhang, Chunyu Kit, Tong Xie, Ian Foster,
Abstract要約: 本稿では,科学的QAペアの自動生成と評価のためのフレームワークであるSciQAGを紹介する。フルテキストの科学論文からnum960000の科学的QAペアを生成します。生成したQAペアは5次元の3つ中2.5点の平均スコアを一貫して達成していることを示す。
参考スコア（独自算出の注目度）: 17.842777831323342
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of question-answer (QA) pairs for training and evaluating large language models (LLMs) has attracted considerable attention. Yet few available QA datasets are based on knowledge from the scientific literature. Here we bridge this gap by presenting Automatic Generation of Scientific Question Answers (SciQAG), a framework for automatic generation and evaluation of scientific QA pairs sourced from published scientific literature. We fine-tune an open-source LLM to generate \num{960000} scientific QA pairs from full-text scientific papers and propose a five-dimensional metric to evaluate the quality of the generated QA pairs. We show via LLM-based evaluation that the generated QA pairs consistently achieve an average score of 2.5 out of 3 across five dimensions, indicating that our framework can distill key knowledge from papers into high-quality QA pairs at scale. We make the dataset, models, and evaluation codes publicly available.
Abstract（参考訳）: 大規模言語モデル (LLM) の訓練と評価にQA(QA)ペアを用いることが注目されている。しかし、利用可能なQAデータセットはほとんど科学文献からの知識に基づいていない。ここでは,学術文献から得られた科学的QAペアの自動生成と評価のためのフレームワークであるSciQAG(Automatic Generation of Scientific Question Answers)を提示することにより,このギャップを埋める。我々はオープンソースのLCMを微調整し、フルテキストの科学論文からnum{960000}の科学的QAペアを生成し、生成されたQAペアの品質を評価するための5次元メトリクスを提案する。 LLMによる評価により, 生成したQAペアは5次元の3つ中2.5点の平均スコアを連続的に達成し, 紙から高品質なQAペアに重要な知識を抽出できることを示す。データセット、モデル、評価コードを公開しています。

関連論文リスト

HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.82973609312178]
HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。 HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-05-07T22:50:23Z)
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文参考訳（メタデータ） (2025-03-27T08:09:15Z)
SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models [36.724471610075696]
SciHorizonは、科学データと大規模言語モデルの両方の観点からAI4Scienceの可読性を評価するために設計された総合的なアセスメントフレームワークである。まず、品質、FAIRネス、説明可能性、コンプライアンスの4つの重要な側面を含む、AI対応の科学データを評価するための一般化可能なフレームワークを紹介します。複数の科学分野にまたがるLCMの能力を評価するために,知識,理解,推論,マルチモダリティ,価値の5つのコア指標に基づいて,16のアセスメントを定めている。
論文参考訳（メタデータ） (2025-03-12T11:34:41Z)
PeerQA: A Scientific Question Answering Dataset from Peer Reviews [51.95579001315713]
実世界の科学的、文書レベルの質問回答データセットであるPeerQAを提示する。データセットには208の学術論文から579のQAペアが含まれており、MLとNLPが多数を占めている。収集したデータセットを詳細に分析し、3つのタスクのベースラインシステムを確立する実験を行う。
論文参考訳（メタデータ） (2025-02-19T12:24:46Z)
SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers [20.273439120429025]
SciDQAは、科学論文の深い理解のためにLSMに挑戦する、理解を読むための新しいデータセットである。他の科学的QAデータセットとは異なり、SciDQAはドメインの専門家によるピアレビューや論文の著者による回答から質問を出している。 SciDQAの質問は、図、表、方程式、付属品、補足材料にまたがる推論を必要とする。
論文参考訳（メタデータ） (2024-11-08T05:28:22Z)
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文参考訳（メタデータ） (2024-07-12T16:37:59Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation [50.061029816288936]
本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。 SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。
論文参考訳（メタデータ） (2024-05-14T17:54:17Z)
PaperQA: Retrieval-Augmented Generative Agent for Scientific Research [41.9628176602676]
本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。 PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
論文参考訳（メタデータ） (2023-12-08T18:50:20Z)
QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。 QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文参考訳（メタデータ） (2023-09-19T05:20:36Z)
SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。主観的質問も主観的質問もSciEvalに含まれる。
論文参考訳（メタデータ） (2023-08-25T03:05:33Z)
Around the GLOBE: Numerical Aggregation Question-Answering on Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks [0.934612743192798]
本稿では,系統樹の数値集約QAのための新しいエンドツーエンド手法を提案する。提案されたアーキテクチャであるGLOBEは、このタスクの精度を87%向上させることで、最先端のモデルとパイプラインを上回っている。本研究は系譜情報センターや博物館に実際的な意味を持つ可能性がある。
論文参考訳（メタデータ） (2023-07-30T12:09:00Z)
An Empirical Comparison of LM-based Question and Answer Generation Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2023-05-26T14:59:53Z)
Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering [62.88322725956294]
OpenQAの最近の研究動向を概観し、特にニューラルMSC技術を導入したシステムに注目した。 Retriever-Reader' と呼ばれる最新の OpenQA アーキテクチャを導入し、このアーキテクチャに従うさまざまなシステムを分析します。次に、OpenQAシステムの開発における主要な課題について議論し、一般的に使用されるベンチマークの分析を提供する。
論文参考訳（メタデータ） (2021-01-04T04:47:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。