論文の概要: NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering
Dataset
- arxiv url: http://arxiv.org/abs/2109.10604v1
- Date: Wed, 22 Sep 2021 09:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 19:31:59.807961
- Title: NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering
Dataset
- Title(参考訳): NOAHQA: グラフ質問回答データセットによる数値推論
- Authors: Qiyuan Zhang, Lei Wang, Sicheng Yu, Shuohang Wang, Yang Wang, Jing
Jiang, Ee-Peng Lim
- Abstract要約: 複素数式を用いた数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。
我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5の正確なマッチスコアしか達成できないことを示す。
また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
- 参考スコア(独自算出の注目度): 26.782937852417454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diverse question answering (QA) datasets have been proposed and
contributed significantly to the development of deep learning models for QA
tasks, the existing datasets fall short in two aspects. First, we lack QA
datasets covering complex questions that involve answers as well as the
reasoning processes to get the answers. As a result, the state-of-the-art QA
research on numerical reasoning still focuses on simple calculations and does
not provide the mathematical expressions or evidences justifying the answers.
Second, the QA community has contributed much effort to improving the
interpretability of QA models. However, these models fail to explicitly show
the reasoning process, such as the evidence order for reasoning and the
interactions between different pieces of evidence. To address the above
shortcomings, we introduce NOAHQA, a conversational and bilingual QA dataset
with questions requiring numerical reasoning with compound mathematical
expressions. With NOAHQA, we develop an interpretable reasoning graph as well
as the appropriate evaluation metric to measure the answer quality. We evaluate
the state-of-the-art QA models trained using existing QA datasets on NOAHQA and
show that the best among them can only achieve 55.5 exact match scores, while
the human performance is 89.7. We also present a new QA model for generating a
reasoning graph where the reasoning graph metric still has a large gap compared
with that of humans, e.g., 28 scores.
- Abstract(参考訳): 多様な質問応答(QA)データセットが提案され、QAタスクのためのディープラーニングモデルの開発に大きく貢献する一方で、既存のデータセットは2つの側面で不足している。
まず、答えを得るための推論プロセスだけでなく、答えを含む複雑な質問を含むQAデータセットがありません。
その結果、数値推論に関する最先端のQA研究は依然として単純な計算に焦点を当てており、答えを正当化する数学的表現やエビデンスを提供していない。
第2に、QAコミュニティはQAモデルの解釈可能性の改善に多くの努力を払っています。
しかし、これらのモデルは推論の証拠の順序や異なる証拠間の相互作用といった推論過程を明示的に示さない。
上記の欠点に対処するために,複雑な数学的表現を伴う数値推論を必要とする質問を対話型およびバイリンガルなQAデータセットであるNOAHQAを紹介する。
NOAHQAでは、解答品質を測定するための適切な評価基準だけでなく、解釈可能な推論グラフも開発する。
我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最高のものは55.5の正確なマッチスコアしか達成できず,人間のパフォーマンスは89.7であることを示す。
また,推論グラフ生成のための新たなqaモデルを提案する。推論グラフのメトリクスは,28スコアなど人間と比較した場合,依然として大きなギャップがある。
関連論文リスト
- GoT-CQA: Graph-of-Thought Guided Compositional Reasoning for Chart Question Answering [12.485921065840294]
CQA(Chart Question Answering)は、ビジュアルチャートの内容に基づいて質問に答えることを目的としている。
本稿では,GoT-CQAと呼ばれる新しいグラフ・オブ・ソート(GoT)による合成推論モデルを提案する。
GoT-CQAは、特に複雑な人間記述や推論の質問において、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-04T10:56:05Z) - Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model [4.41132900194195]
人手による質問(CoQAH)に対するQAの連鎖という新しい手法を提案する。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-12T06:49:49Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question
Answering [122.84513233992422]
学習済み言語モデル(LM)と知識グラフ(KG)の知識を用いて質問に答える問題に対処する新しいモデルであるQA-GNNを提案する。
既存のLMとLM+KGモデルに対する改善と、解釈可能で構造化された推論を行う能力を示しています。
論文 参考訳(メタデータ) (2021-04-13T17:32:51Z) - What Gives the Answer Away? Question Answering Bias Analysis on Video QA
Datasets [40.64071905569975]
ビデオQAデータセットの回答バイアスは、QAアーティファクトに過度に適合するように、マルチモーダルモデルを誤解させる可能性がある。
私たちの研究では、アノテータや質問の種類からバイアスが生まれます。
また,ビデオQAデータセットのQAバイアスを低減できることを示す。
論文 参考訳(メタデータ) (2020-07-07T17:00:11Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。