論文の概要: TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance
- arxiv url: http://arxiv.org/abs/2105.07624v1
- Date: Mon, 17 May 2021 06:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 00:25:50.428631
- Title: TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance
- Title(参考訳): TAT-QA:財務における語彙とテキストのハイブリッドに関するベンチマーク
- Authors: Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang,
Jiancheng Lv, Fuli Feng and Tat-Seng Chua
- Abstract要約: TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
- 参考スコア(独自算出の注目度): 71.76018597965378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid data combining both tabular and textual content (e.g., financial
reports) are quite pervasive in the real world. However, Question Answering
(QA) over such hybrid data is largely neglected in existing research. In this
work, we extract samples from real financial reports to build a new large-scale
QA dataset containing both Tabular And Textual data, named TAT-QA, where
numerical reasoning is usually required to infer the answer, such as addition,
subtraction, multiplication, division, counting, comparison/sorting, and the
compositions. We further propose a novel QA model termed TAGOP, which is
capable of reasoning over both tables and text. It adopts sequence tagging to
extract relevant cells from the table along with relevant spans from the text
to infer their semantics, and then applies symbolic reasoning over them with a
set of aggregation operators to arrive at the final answer. TAGOPachieves 58.0%
inF1, which is an 11.1% absolute increase over the previous best baseline
model, according to our experiments on TAT-QA. But this result still lags far
behind performance of expert human, i.e.90.8% in F1. It is demonstrated that
our TAT-QA is very challenging and can serve as a benchmark for training and
testing powerful QA models that address hybrid form data.
- Abstract(参考訳): 表とテキストの両方を組み合わせたハイブリッドデータ(例えば財務報告)は、現実世界でかなり普及している。
しかし、そのようなハイブリッドデータに対する質問応答(QA)は、既存の研究では無視されている。
本研究では、実際の財務報告からサンプルを抽出し、タブラルデータとテクスチャデータの両方を含む新しい大規模QAデータセット(TAT-QA)を構築する。
さらに,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
シーケンシャルタグ付け(sequence tagging)を使用して、テーブルから関連する細胞を抽出し、テキストから関連するスパンを推論し、それらのセマンティクスを推論し、最終回答に到達する集約演算子のセットでそれらの上にシンボリック推論を適用する。
TAGOPachieves 58.0% inF1,これは以前の最良ベースラインモデルよりも11.1%絶対的な増加である。
しかし、この結果はF1の90.8%という専門家の業績にはまだ及ばない。
我々のTAT-QAは非常に困難であり、ハイブリッドフォームデータを扱う強力なQAモデルのトレーニングとテストのベンチマークとして機能することを示す。
関連論文リスト
- CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart [26.54501344351476]
C$textT2$C-QAは中国の推論に基づくQAデータセットであり、テキスト、テーブル、チャートの広範なコレクションを含んでいる。
我々のデータセットは、実際のWebページをシミュレートし、マルチモーダルデータを用いてモデルを分析し、推論する能力の優れたテストとして役立ちます。
論文 参考訳(メタデータ) (2024-10-28T18:13:14Z) - How Robust are the Tabular QA Models for Scientific Tables? A Study using Customized Dataset [23.822733961152103]
SciTabQAは、科学的異種データに対する質問応答を研究する革新的なデータセットである。
3つの最先端のタブラルQAモデルをベンチマークした結果、最良のF1スコアは0.462であることがわかった。
論文 参考訳(メタデータ) (2024-03-30T15:48:49Z) - PACIFIC: Towards Proactive Conversational Question Answering over
Tabular and Textual Data in Finance [96.06505049126345]
我々はPACIFICという新しいデータセットを提案する。既存のCQAデータセットと比較すると、PACIFICは(i)活動性、(ii)数値推論、(iii)表とテキストのハイブリッドコンテキストの3つの重要な特徴を示す。
質問生成とCQAを組み合わせたPCQA(Proactive Conversational Question Answering)に基づいて,新しいタスクを定義する。
UniPCQAはPCQAのすべてのサブタスク上でマルチタスク学習を行い、Seeq2Seqの上位$kのサンプルをクロスバリデーションすることで、マルチタスク学習におけるエラー伝搬問題を緩和するための単純なアンサンブル戦略を取り入れている。
論文 参考訳(メタデータ) (2022-10-17T08:06:56Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - FeTaQA: Free-form Table Question Answering [33.018256483762386]
FeTaQAは10Kのウィキペディアベースのテーブル、質問、自由形式の回答、テーブルセルペアをサポートする新しいデータセットである。
FeTaQAは、構造化された知識ソースから複数の不連続な事実の検索、推論、および統合後に自由形式のテキスト回答を生成する必要があるため、より困難なテーブル質問回答設定を提供する。
論文 参考訳(メタデータ) (2021-04-01T09:59:40Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。