論文の概要: Question-Answer Extraction from Scientific Articles Using Knowledge Graphs and Large Language Models
- arxiv url: http://arxiv.org/abs/2507.13827v1
- Date: Fri, 18 Jul 2025 11:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.267915
- Title: Question-Answer Extraction from Scientific Articles Using Knowledge Graphs and Large Language Models
- Title(参考訳): 知識グラフと大規模言語モデルを用いた科学論文からの質問応答抽出
- Authors: Hosein Azarbonyad, Zi Long Zhu, Georgios Cheirmpos, Zubair Afzal, Vikrant Yadav, Georgios Tsatsaronis,
- Abstract要約: 本稿では,科学的論文から質問と回答のペアを生成するための2つのアプローチを提案する。
最初のアプローチは、質問を生成するためにLarge Language Model(LLM)を使用して、有能な段落を選択することである。
第2のアプローチでは、QA生成に知識グラフ(KG)を活用する。
- 参考スコア(独自算出の注目度): 1.8637078358591848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deciding to read an article or incorporate it into their research, scholars often seek to quickly identify and understand its main ideas. In this paper, we aim to extract these key concepts and contributions from scientific articles in the form of Question and Answer (QA) pairs. We propose two distinct approaches for generating QAs. The first approach involves selecting salient paragraphs, using a Large Language Model (LLM) to generate questions, ranking these questions by the likelihood of obtaining meaningful answers, and subsequently generating answers. This method relies exclusively on the content of the articles. However, assessing an article's novelty typically requires comparison with the existing literature. Therefore, our second approach leverages a Knowledge Graph (KG) for QA generation. We construct a KG by fine-tuning an Entity Relationship (ER) extraction model on scientific articles and using it to build the graph. We then employ a salient triplet extraction method to select the most pertinent ERs per article, utilizing metrics such as the centrality of entities based on a triplet TF-IDF-like measure. This measure assesses the saliency of a triplet based on its importance within the article compared to its prevalence in the literature. For evaluation, we generate QAs using both approaches and have them assessed by Subject Matter Experts (SMEs) through a set of predefined metrics to evaluate the quality of both questions and answers. Our evaluations demonstrate that the KG-based approach effectively captures the main ideas discussed in the articles. Furthermore, our findings indicate that fine-tuning the ER extraction model on our scientific corpus is crucial for extracting high-quality triplets from such documents.
- Abstract(参考訳): 論文を読むか研究に組み込むかを決めるとき、学者はしばしばその主要な考えを素早く特定し理解しようと試みる。
本稿では,これらの重要な概念とコントリビューションを,質問と回答のペア(QA)形式で科学論文から抽出することを目的とする。
本稿では、QAを生成するための2つの異なるアプローチを提案する。
第一のアプローチは、質問を生成するためにLLM(Large Language Model)を使用して、有意義な回答を得る可能性でこれらの質問をランク付けし、その後回答を生成することである。
この方法は記事の内容にのみ依存する。
しかし、記事の斬新さを評価するには、既存の文献と比較する必要があるのが普通である。
したがって、第2のアプローチは、QA生成に知識グラフ(KG)を活用する。
我々は、科学論文のエンティティ関係(ER)抽出モデルを微調整し、それを用いてグラフを構築することで、KGを構築する。
次に,三重項TF-IDF様測度に基づくエンティティの集中度などの指標を利用して,記事ごとの最も関連するERを選択するために,有能な三重項抽出手法を用いる。
この尺度は、論文におけるその重要性と文学におけるその有病率に基づいて、三重項の正当性を評価する。
評価のために,両手法を用いてQAを生成し,質問と回答の質を評価するために,事前定義された指標のセットを通じて,主観的課題エキスパート(SME)に評価させる。
KGに基づくアプローチは,本稿で論じている主要なアイデアを効果的に捉えていることを示す。
さらに,これらの文書から高品質な三つ子を抽出するためには,ER抽出モデルを科学的コーパスで微調整することが重要であることが示唆された。
関連論文リスト
- PeerQA: A Scientific Question Answering Dataset from Peer Reviews [51.95579001315713]
実世界の科学的、文書レベルの質問回答データセットであるPeerQAを提示する。
データセットには208の学術論文から579のQAペアが含まれており、MLとNLPが多数を占めている。
収集したデータセットを詳細に分析し、3つのタスクのベースラインシステムを確立する実験を行う。
論文 参考訳(メタデータ) (2025-02-19T12:24:46Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - CiteFusion: An Ensemble Framework for Citation Intent Classification Harnessing Dual-Model Binary Couples and SHAP Analyses [1.7812428873698407]
CiteFusionは、SciCiteとACL-ARCという2つのベンチマークデータセット上のマルチクラスCitation Intent Classificationタスクに対処する。
このフレームワークは、マルチクラスタスクをクラス固有のバイナリサブタスクに1-vs-all分解する。
その結果、CiteFusionは最先端のパフォーマンスを達成し、Macro-F1スコアはSciCiteで89.60%、ACL-ARCで76.24%であった。
論文 参考訳(メタデータ) (2024-07-18T09:29:33Z) - EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.91826112815384]
引用ベースのQAシステムは2つの欠点に悩まされている。
彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。
システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
論文 参考訳(メタデータ) (2024-06-14T19:40:38Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Graph Reasoning for Question Answering with Triplet Retrieval [33.454090126152714]
知識グラフ(KGs)から最も関連性の高い三つ子を抽出する簡便で効果的な方法を提案する。
我々の手法は最先端の精度を4.6%まで上回ることができる。
論文 参考訳(メタデータ) (2023-05-30T04:46:28Z) - Evaluating BERT-based Scientific Relation Classifiers for Scholarly
Knowledge Graph Construction on Digital Library Collections [5.8962650619804755]
関連する科学的概念間の意味的関係を推測することは重要なステップである。
BERTベースの事前学習モデルは、自動関係分類のために広く研究されている。
既存の手法は主にクリーンテキストで評価される。
これらの制限に対処するため、私たちはOCRノイズの多いテキストを作成しました。
論文 参考訳(メタデータ) (2023-05-03T17:32:16Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - A Data-driven Latent Semantic Analysis for Automatic Text Summarization
using LDA Topic Modelling [0.0]
本研究では、トピックモデリングを行うために使用されるLDA(Latent Dirichlet Allocation)アプローチを提案する。
可視化は主要なトピックを概観し、個々のトピックに対する深い意味を許容し、帰結させる。
その結果,処理文書中の話題の出現確率を考慮し,純粋にランク付けされた用語が示唆された。
論文 参考訳(メタデータ) (2022-07-23T11:04:03Z) - Science Checker: Extractive-Boolean Question Answering For Scientific
Fact Checking [0.0]
本研究では,研究論文における事実と証拠からの合同推論に基づいて,科学的疑問を検証するためのマルチタスクアプローチを提案する。
提案した軽量かつ高速なアーキテクチャにより、平均エラー率は4%、F1スコアは95.6%に達した。
論文 参考訳(メタデータ) (2022-04-26T12:35:23Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。