論文の概要: MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and
Textual Data
- arxiv url: http://arxiv.org/abs/2206.01347v1
- Date: Fri, 3 Jun 2022 00:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 03:31:06.326506
- Title: MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and
Textual Data
- Title(参考訳): multihiertt: multi hierarchy tabular and textual data による数値推論
- Authors: Yilun Zhao, Yunxiang Li, Chenying Li, Rui Zhang
- Abstract要約: 既存のハイブリットデータに対する質問応答ベンチマークには、各ドキュメントに1つのフラットテーブルしか含まれていない。
大規模ベンチマークであるMultiHierttを構築し、多階層タブラリデータとテクスチュアルデータにQAペアを配置する。
結果から,MultiHierttは,人的専門家の業績よりもはるかに遅れている既存のベースラインに対して,強い課題を呈していることがわかった。
- 参考スコア(独自算出の注目度): 7.063167712310221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerical reasoning over hybrid data containing both textual and tabular
content (e.g., financial reports) has recently attracted much attention in the
NLP community. However, existing question answering (QA) benchmarks over hybrid
data only include a single flat table in each document and thus lack examples
of multi-step numerical reasoning across multiple hierarchical tables. To
facilitate data analytical progress, we construct a new large-scale benchmark,
MultiHiertt, with QA pairs over Multi Hierarchical Tabular and Textual data.
MultiHiertt is built from a wealth of financial reports and has the following
unique characteristics: 1) each document contain multiple tables and longer
unstructured texts; 2) most of tables contained are hierarchical; 3) the
reasoning process required for each question is more complex and challenging
than existing benchmarks; and 4) fine-grained annotations of reasoning
processes and supporting facts are provided to reveal complex numerical
reasoning. We further introduce a novel QA model termed MT2Net, which first
applies facts retrieving to extract relevant supporting facts from both tables
and text and then uses a reasoning module to perform symbolic reasoning over
retrieved facts. We conduct comprehensive experiments on various baselines. The
experimental results show that MultiHiertt presents a strong challenge for
existing baselines whose results lag far behind the performance of human
experts. The dataset and code are publicly available at
https://github.com/psunlpgroup/MultiHiertt.
- Abstract(参考訳): テキストと表形式のコンテンツ(例えば財務報告)を含むハイブリッドデータに対する数値推論は、最近NLPコミュニティで注目を集めている。
しかし、既存のハイブリッドデータに対する質問応答(QA)ベンチマークでは、各文書に1つのフラットテーブルしか含まれておらず、複数の階層テーブルにまたがる多段階の数値推論の例が欠如している。
データ解析の進展を容易にするため,マルチ階層タブラリおよびテキストデータ上でQAペアを用いた大規模ベンチマークであるMultiHierttを構築した。
multihierttは豊富な財務報告から成り立っており、次のような特徴を持っている。
1) 各書類には,複数の表と長文を含む。
2) 表のほとんどが階層構造である。
3)各質問に必要な推論プロセスは,既存のベンチマークよりも複雑かつ困難である。
4) 複雑な数値推論を明らかにするために, 推論プロセスの微粒化アノテーションと支援事実を提供する。
さらに、MT2Netと呼ばれる新しいQAモデルを導入し、まず、テーブルとテキストの両方から関連する支援事実を抽出し、その後、検索された事実に対してシンボリック推論を行うために推論モジュールを使用する。
各種ベースラインの総合的な実験を行う。
実験の結果,マルチhierttは,既存のベースラインにおいて,人間専門家のパフォーマンスにはるかに遅れている,強い課題を呈することが示された。
データセットとコードはhttps://github.com/psunlpgroup/multihierttで公開されている。
関連論文リスト
- TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Multi-Row, Multi-Span Distant Supervision For Table+Text Question [33.809732338627136]
テーブル上の質問応答(QA)と、TextTableQAとも呼ばれるリンクされたテキストは、近年重要な研究を目撃している。
両軸に沿って遠隔監視を行うように設計された変換器ベースのTextTableQAシステムであるMITQAを提案する。
論文 参考訳(メタデータ) (2021-12-14T12:48:19Z) - HiTab: A Hierarchical Table Dataset for Question Answering and Natural
Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。
この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文 参考訳(メタデータ) (2021-08-15T10:14:21Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。