論文の概要: HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and
Textual Data
- arxiv url: http://arxiv.org/abs/2004.07347v3
- Date: Tue, 11 May 2021 23:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 02:46:54.079405
- Title: HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and
Textual Data
- Title(参考訳): hybridqa: 表データとテキストデータによるマルチホップ質問応答のデータセット
- Authors: Wenhu Chen, Hanwen Zha, Zhiyu Chen, Wenhan Xiong, Hong Wang, William
Wang
- Abstract要約: 異種情報の推論を必要とする大規模質問応答データセットであるHybridQAを提案する。
各質問はウィキペディアのテーブルとテーブル内のエンティティにリンクされた複数の自由形式のコーパスに一致している。
実験の結果、2つのベースラインで得られたEMスコアは20%以下であり、ハイブリッドモデルでは40%以上のEMが得られることがわかった。
- 参考スコア(独自算出の注目度): 39.91331662575689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing question answering datasets focus on dealing with homogeneous
information, based either only on text or KB/Table information alone. However,
as human knowledge is distributed over heterogeneous forms, using homogeneous
information alone might lead to severe coverage problems. To fill in the gap,
we present HybridQA https://github.com/wenhuchen/HybridQA, a new large-scale
question-answering dataset that requires reasoning on heterogeneous
information. Each question is aligned with a Wikipedia table and multiple
free-form corpora linked with the entities in the table. The questions are
designed to aggregate both tabular information and text information, i.e., lack
of either form would render the question unanswerable. We test with three
different models: 1) a table-only model. 2) text-only model. 3) a hybrid model
that combines heterogeneous information to find the answer. The experimental
results show that the EM scores obtained by two baselines are below 20\%, while
the hybrid model can achieve an EM over 40\%. This gap suggests the necessity
to aggregate heterogeneous information in HybridQA. However, the hybrid model's
score is still far behind human performance. Hence, HybridQA can serve as a
challenging benchmark to study question answering with heterogeneous
information.
- Abstract(参考訳): 既存の質問応答データセットは、テキストまたはkb/table情報のみに基づいて、均質な情報を扱うことに焦点を当てている。
しかしながら、人間の知識が異質な形式に分散しているため、均質な情報のみを使うことは、厳しいカバレッジ問題を引き起こす可能性がある。
このギャップを埋めるために、異種情報の推論を必要とする新しい大規模質問回答データセットであるHybridQA https://github.com/wenhuchen/HybridQAを提案する。
各質問はウィキペディアのテーブルとテーブル内のエンティティにリンクされた複数の自由形式のコーパスに一致している。
質問は表情報とテキスト情報の両方を集約するように設計されている。
3つの異なるモデルでテストします
1) テーブルのみのモデル。
2) テキストのみのモデル。
3) 不均質な情報を結合して解を求めるハイブリッドモデル。
実験の結果,2つのベースラインで得られたemスコアは20\%以下であり,ハイブリッドモデルでは40\%以上のemを得ることができた。
このギャップは、ハイブリッドQAで異種情報を集約する必要性を示唆している。
しかし、ハイブリッドモデルのスコアは、まだ人間のパフォーマンスに遠く及ばない。
したがって、HybridQAは異種情報による質問応答を研究する上で困難なベンチマークとなる。
関連論文リスト
- PCoQA: Persian Conversational Question Answering Dataset [12.07607688189035]
PCoQAデータセットは、9,026のコンテキスト駆動質問を含む情報検索ダイアログを含むリソースである。
PCoQAは、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。
本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。
論文 参考訳(メタデータ) (2023-12-07T15:29:34Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - TACR: A Table-alignment-based Cell-selection and Reasoning Model for
Hybrid Question-Answering [31.79113994947629]
テキストとテーブルQAのハイブリッド化を目的としたテーブルアライメントに基づくセル選択・推論モデル(TACR)を提案する。
証拠検索において,我々は詳細な証拠を検索するテーブルクエストアライメント強化セル選択法を設計する。
回答推論では、選択されたセルを含む行をコンテキストとして扱うQAモジュールを組み込む。
論文 参考訳(メタデータ) (2023-05-24T03:42:44Z) - LIQUID: A Framework for List Question Answering Dataset Generation [17.86721740779611]
ラベルなしコーパスからリストQAデータセットを生成するためのフレームワークであるLIQUIDを提案する。
まず、ウィキペディアまたはPubMedからの節を要約に変換し、要約されたテキストから名前付きエンティティを候補回答として抽出する。
次に、抽出されたエンティティと元のパスを含む既成の質問生成器を用いて質問を生成する。
合成データを用いて,MultiSpanQAでは5.0点,Quorefでは1.9点,BioASQベンチマークでは2.8点の精度で,過去のベストリストQAモデルの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2023-02-03T12:42:45Z) - HeteroQA: Learning towards Question-and-Answering through Multiple
Information Sources via Heterogeneous Graph Modeling [50.39787601462344]
コミュニティ質問回答(Community Question Answering, CQA)は、Eコマースやオンラインユーザコミュニティなど、多くのシナリオで利用することができる、明確に定義されたタスクである。
CQAの手法のほとんどは、知識を抽出し、ユーザの質問に答えるために記事やウィキペディアしか含まない。
ユーザコミュニティに複数の情報ソース(MIS)を組み込んで回答を自動的に生成する問合せ対応の異種グラフ変換器を提案する。
論文 参考訳(メタデータ) (2021-12-27T10:16:43Z) - MixQG: Neural Question Generation with Mixed Answer Types [54.23205265351248]
このギャップを埋めるために、ニューラル質問生成器MixQGを提案する。
yes/no, multiple-choice, extractive, abstractive answerなど,9つの質問応答データセットと多様な回答タイプを組み合わせる。
私たちのモデルは、目に見えない領域と見えない領域の両方で、既存の作業より優れています。
論文 参考訳(メタデータ) (2021-10-15T16:03:40Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - FeTaQA: Free-form Table Question Answering [33.018256483762386]
FeTaQAは10Kのウィキペディアベースのテーブル、質問、自由形式の回答、テーブルセルペアをサポートする新しいデータセットである。
FeTaQAは、構造化された知識ソースから複数の不連続な事実の検索、推論、および統合後に自由形式のテキスト回答を生成する必要があるため、より困難なテーブル質問回答設定を提供する。
論文 参考訳(メタデータ) (2021-04-01T09:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。