Fugu-MT 論文翻訳(概要): SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers

論文の概要: SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers

arxiv url: http://arxiv.org/abs/2411.05338v1
Date: Fri, 08 Nov 2024 05:28:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.681805
Title: SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers
Title（参考訳）: SciDQA: 科学論文の深層読解データセット
Authors: Shruti Singh, Nandan Sarkar, Arman Cohan,
Abstract要約: SciDQAは、科学論文の深い理解のためにLSMに挑戦する、理解を読むための新しいデータセットである。他の科学的QAデータセットとは異なり、SciDQAはドメインの専門家によるピアレビューや論文の著者による回答から質問を出している。 SciDQAの質問は、図、表、方程式、付属品、補足材料にまたがる推論を必要とする。
参考スコア（独自算出の注目度）: 20.273439120429025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scientific literature is typically dense, requiring significant background knowledge and deep comprehension for effective engagement. We introduce SciDQA, a new dataset for reading comprehension that challenges LLMs for a deep understanding of scientific articles, consisting of 2,937 QA pairs. Unlike other scientific QA datasets, SciDQA sources questions from peer reviews by domain experts and answers by paper authors, ensuring a thorough examination of the literature. We enhance the dataset's quality through a process that carefully filters out lower quality questions, decontextualizes the content, tracks the source document across different versions, and incorporates a bibliography for multi-document question-answering. Questions in SciDQA necessitate reasoning across figures, tables, equations, appendices, and supplementary materials, and require multi-document reasoning. We evaluate several open-source and proprietary LLMs across various configurations to explore their capabilities in generating relevant and factual responses. Our comprehensive evaluation, based on metrics for surface-level similarity and LLM judgements, highlights notable performance discrepancies. SciDQA represents a rigorously curated, naturally derived scientific QA dataset, designed to facilitate research on complex scientific text understanding.
Abstract（参考訳）: 科学文献は典型的には密集しており、効果的なエンゲージメントにはかなりの背景知識と深い理解が必要である。 SciDQAは,2,937対のQAペアからなる科学論文を深く理解するために,LSMに挑戦する新しい理解データセットである。他の科学的QAデータセットとは異なり、SciDQAはドメインの専門家によるピアレビューや論文の著者による回答から質問を抽出し、文献の徹底的な検証を確実にする。我々は、低品質の質問を注意深くフィルタリングし、コンテンツをデコンテクスト化し、異なるバージョンにわたるソース文書を追跡し、マルチドキュメントの質問回答のための書誌を組み込むプロセスを通じて、データセットの品質を向上させる。 SciDQAの質問は、図形、表、方程式、付属物、補足材料にまたがる推論を必要とし、多文書の推論を必要とする。我々は、様々な構成のオープンソースおよびプロプライエタリなLCMを評価し、関連性および事実応答を生成する能力について検討する。表面レベルの類似度とLCM判定の指標に基づく総合的な評価は、顕著な性能の相違を浮き彫りにする。 SciDQAは、複雑な科学的テキスト理解の研究を促進するために設計された、厳格にキュレートされた、自然に派生した科学的なQAデータセットである。

関連論文リスト

Patience is all you need! An agentic system for performing scientific literature review [0.0]
大規模言語モデル(LLM)は、様々な分野にわたる質問応答のサポートを提供するために、その利用が増加している。我々は、科学文献にカプセル化された情報の検索と蒸留を行うLLMベースのシステムを構築した。提案するキーワードに基づく検索・情報蒸留システムについて, 生物関連質問の集合に対して, 先行する文献ベンチマークを用いて評価を行った。
論文参考訳（メタデータ） (2025-03-28T08:08:46Z)
PeerQA: A Scientific Question Answering Dataset from Peer Reviews [51.95579001315713]
実世界の科学的、文書レベルの質問回答データセットであるPeerQAを提示する。データセットには208の学術論文から579のQAペアが含まれており、MLとNLPが多数を占めている。収集したデータセットを詳細に分析し、3つのタスクのベースラインシステムを確立する実験を行う。
論文参考訳（メタデータ） (2025-02-19T12:24:46Z)
Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。 InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。また,LLM支援型評価器であるInsEvalを提案する。
論文参考訳（メタデータ） (2024-10-01T09:10:00Z)
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文参考訳（メタデータ） (2024-07-12T16:37:59Z)
cPAPERS: A Dataset of Situated and Multimodal Interactive Conversations in Scientific Papers [5.103692331918768]
本研究は,学術論文のレビューから,対話型質問応答ペアのデータセットである会話型論文(cPAPERS)を紹介する。本稿では,OpenReviewからこれらの質問応答ペアを収集し,ソースファイルからコンテキスト情報に関連付けるためのデータ収集戦略を提案する。
論文参考訳（メタデータ） (2024-06-12T16:46:12Z)
SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation [11.129800893611646]
SciQAGは、大規模言語モデル(LLM)に基づく科学文献の大規模なコーパスから高品質な科学質問応答ペアを自動生成するフレームワークである。我々は,24分野にわたる22,743の科学論文から抽出された188,042のQAペアを含む大規模で高品質な科学QAデータセットを構築した。 SciQAG-24DはLLMの科学質問応答能力を評価するための新しいベンチマークタスクである。
論文参考訳（メタデータ） (2024-05-16T09:42:37Z)
Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-03-03T03:06:31Z)
PaperQA: Retrieval-Augmented Generative Agent for Scientific Research [41.9628176602676]
本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。 PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
論文参考訳（メタデータ） (2023-12-08T18:50:20Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Around the GLOBE: Numerical Aggregation Question-Answering on Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks [0.934612743192798]
本稿では,系統樹の数値集約QAのための新しいエンドツーエンド手法を提案する。提案されたアーキテクチャであるGLOBEは、このタスクの精度を87%向上させることで、最先端のモデルとパイプラインを上回っている。本研究は系譜情報センターや博物館に実際的な意味を持つ可能性がある。
論文参考訳（メタデータ） (2023-07-30T12:09:00Z)
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文参考訳（メタデータ） (2023-07-24T08:58:25Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。