論文の概要: Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2412.02788v2
- Date: Thu, 05 Dec 2024 10:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 11:20:04.149438
- Title: Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset
- Title(参考訳): Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset
- Authors: Tilahun Abedissa Taffa, Debayan Banerjee, Yaregal Assabie, Ricardo Usbeck,
- Abstract要約: 我々は,新しい大規模Scholarly Question AnsweringデータセットであるHybrid-SQuADを紹介する。
データセットは、大きな言語モデルによって生成される10.5Kの質問応答ペアで構成されている。
RAGベースのベースラインハイブリッドQAモデルを提案し、Hybrid-SQuADテストセット上で69.65の正確な一致スコアを達成する。
- 参考スコア(独自算出の注目度): 8.867885891794877
- License:
- Abstract: Existing Scholarly Question Answering (QA) methods typically target homogeneous data sources, relying solely on either text or Knowledge Graphs (KGs). However, scholarly information often spans heterogeneous sources, necessitating the development of QA systems that integrate information from multiple heterogeneous data sources. To address this challenge, we introduce Hybrid-SQuAD (Hybrid Scholarly Question Answering Dataset), a novel large-scale QA dataset designed to facilitate answering questions incorporating both text and KG facts. The dataset consists of 10.5K question-answer pairs generated by a large language model, leveraging the KGs DBLP and SemOpenAlex alongside corresponding text from Wikipedia. In addition, we propose a RAG-based baseline hybrid QA model, achieving an exact match score of 69.65 on the Hybrid-SQuAD test set.
- Abstract(参考訳): 既存のScholarly Question Answering (QA) メソッドは、通常、テキストまたは知識グラフ(KG)にのみ依存して、均一なデータソースをターゲットにしている。
しかし、学術的な情報は多種多様な情報源にまたがることが多く、複数の異種データソースからの情報を統合するQAシステムの開発が必要である。
この課題に対処するために、テキストとKGの事実を取り入れた質問応答を容易にするために設計された、新しい大規模QAデータセットであるHybrid Scholarly Question Answering Dataset(Hybrid Scholarly Question Answering Dataset)を紹介する。
データセットは、大きな言語モデルによって生成される10.5Kの質問応答ペアで構成され、対応するウィキペディアのテキストとともにKGs DBLPとSemOpenAlexを利用している。
さらに,RAGベースのベースラインハイブリッドQAモデルを提案し,Hybrid-SQuADテストセット上での正確な一致スコアを69.65とする。
関連論文リスト
- PCoQA: Persian Conversational Question Answering Dataset [12.07607688189035]
PCoQAデータセットは、9,026のコンテキスト駆動質問を含む情報検索ダイアログを含むリソースである。
PCoQAは、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。
本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。
論文 参考訳(メタデータ) (2023-12-07T15:29:34Z) - Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - HeteroQA: Learning towards Question-and-Answering through Multiple
Information Sources via Heterogeneous Graph Modeling [50.39787601462344]
コミュニティ質問回答(Community Question Answering, CQA)は、Eコマースやオンラインユーザコミュニティなど、多くのシナリオで利用することができる、明確に定義されたタスクである。
CQAの手法のほとんどは、知識を抽出し、ユーザの質問に答えるために記事やウィキペディアしか含まない。
ユーザコミュニティに複数の情報ソース(MIS)を組み込んで回答を自動的に生成する問合せ対応の異種グラフ変換器を提案する。
論文 参考訳(メタデータ) (2021-12-27T10:16:43Z) - Generating Self-Contained and Summary-Centric Question Answer Pairs via
Differentiable Reward Imitation Learning [7.2745835227138045]
本稿では,質問応答対(QAペア)を自己完結型,要約型,長さ制約型,記事要約型で生成するモデルを提案する。
このデータセットは、回答として要約を生成するQAペア生成モデルを学ぶために使用される。
論文 参考訳(メタデータ) (2021-09-10T06:34:55Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and
Textual Data [39.91331662575689]
異種情報の推論を必要とする大規模質問応答データセットであるHybridQAを提案する。
各質問はウィキペディアのテーブルとテーブル内のエンティティにリンクされた複数の自由形式のコーパスに一致している。
実験の結果、2つのベースラインで得られたEMスコアは20%以下であり、ハイブリッドモデルでは40%以上のEMが得られることがわかった。
論文 参考訳(メタデータ) (2020-04-15T21:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。