論文の概要: AIT-QA: Question Answering Dataset over Complex Tables in the Airline
Industry
- arxiv url: http://arxiv.org/abs/2106.12944v1
- Date: Thu, 24 Jun 2021 12:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:20:27.921190
- Title: AIT-QA: Question Answering Dataset over Complex Tables in the Airline
Industry
- Title(参考訳): AIT-QA: 航空産業における複雑なテーブル上の質問応答データ
- Authors: Yannis Katsis, Saneem Chemmengath, Vishwajeet Kumar, Samarth
Bharadwaj, Mustafa Canim, Michael Glass, Alfio Gliozzo, Feifei Pan, Jaydeep
Sen, Karthik Sankaranarayanan, Soumen Chakrabarti
- Abstract要約: ドメイン固有のテーブルQAデータセットAIT-QA(Industry Table QA)を紹介する。
このデータセットは、米国証券取引委員会(SEC)の提出書類から抽出された116のテーブル上で、人間のアノテータによって書かれた515の質問から成り立っている。
また、階層的ヘッダー、ドメイン固有の用語、言い換え形を必要とするものをマークして、質問の性質に関するアノテーションも提供します。
- 参考スコア(独自算出の注目度): 30.330772077451048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in transformers have enabled Table Question Answering (Table
QA) systems to achieve high accuracy and SOTA results on open domain datasets
like WikiTableQuestions and WikiSQL. Such transformers are frequently
pre-trained on open-domain content such as Wikipedia, where they effectively
encode questions and corresponding tables from Wikipedia as seen in Table QA
dataset. However, web tables in Wikipedia are notably flat in their layout,
with the first row as the sole column header. The layout lends to a relational
view of tables where each row is a tuple. Whereas, tables in domain-specific
business or scientific documents often have a much more complex layout,
including hierarchical row and column headers, in addition to having
specialized vocabulary terms from that domain.
To address this problem, we introduce the domain-specific Table QA dataset
AIT-QA (Airline Industry Table QA). The dataset consists of 515 questions
authored by human annotators on 116 tables extracted from public U.S. SEC
filings (publicly available at: https://www.sec.gov/edgar.shtml) of major
airline companies for the fiscal years 2017-2019. We also provide annotations
pertaining to the nature of questions, marking those that require hierarchical
headers, domain-specific terminology, and paraphrased forms. Our zero-shot
baseline evaluation of three transformer-based SOTA Table QA methods - TaPAS
(end-to-end), TaBERT (semantic parsing-based), and RCI (row-column
encoding-based) - clearly exposes the limitation of these methods in this
practical setting, with the best accuracy at just 51.8\% (RCI). We also present
pragmatic table preprocessing steps used to pivot and project these complex
tables into a layout suitable for the SOTA Table QA models.
- Abstract(参考訳): 近年のトランスフォーマーの進歩により、WikiTableQuestionsやWikiSQLといったオープンドメインデータセット上で、テーブル質問回答(Table QA)システムが高精度でSOTA結果が得られるようになった。
このようなトランスフォーマーはウィキペディアのようなオープンドメインのコンテンツで事前学習されることが多く、テーブルQAデータセットに見られるように、ウィキペディアの質問や対応するテーブルを効果的にエンコードする。
しかし、wikipediaのwebテーブルはレイアウトにおいて顕著に平坦であり、最初の行は唯一のカラムヘッダである。
このレイアウトは、各行がタプルであるテーブルのリレーショナルビューに向いている。
一方、ドメイン固有のビジネスまたは科学文書のテーブルは、そのドメインからの特別な語彙の他に、階層的な行や列ヘッダを含むより複雑なレイアウトを持つことが多い。
この問題に対処するために、ドメイン固有のテーブルQAデータセットAIT-QA(Airline Industry Table QA)を紹介する。
このデータセットは、2017-2019年度の大手航空会社の米国証券取引委員会(SEC)の提出書類から抽出された116の表に、人間のアノテータによって書かれた515の質問からなる。
また、質問の性質に関するアノテーションを提供し、階層ヘッダー、ドメイン固有用語、パラフレーズ形式を必要とするものをマークします。
我々のゼロショットベースライン評価では,TPAS (end-to-end) , TaBERT (semantic parsing-based) , RCI (row-column encoding-based) という3つのトランスフォーマーベースのSOTAテーブルQA手法を用いて,これらの手法の限界を明らかにし,その精度は51.8\% (RCI) である。
また,これらの複雑なテーブルを sota テーブル qa モデルに適したレイアウトにピボットし,投影するための実用的テーブル前処理手順を提案する。
関連論文リスト
- KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Augment before You Try: Knowledge-Enhanced Table Question Answering via
Table Expansion [57.53174887650989]
テーブル質問応答は、構造化されたデータを理解し、相互作用するモデルの能力を評価する一般的なタスクである。
既存の方法は表と外部の知識の両方をテキストに変換し、表の構造的な性質を無視する。
そこで本稿では,表に外部情報を統合するための簡易で効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-01-28T03:37:11Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Topic Transferable Table Question Answering [33.54533181098762]
弱教師付きテーブル質問回答(TableQA)モデルは、事前学習されたBERT変換器を用いて質問とテーブルを共同で符号化し、質問のための構造化クエリを生成することにより、最先端のパフォーマンスを実現している。
実用的な設定では、TableQA システムは BERT の事前学習コーパスとは全く異なるトピックと単語の分布を持つテーブルコーパス上に展開される。
我々はT3QA(Topic Transferable Table Question Answering)をTableQAの実用的な適応フレームワークとして提案する。
論文 参考訳(メタデータ) (2021-09-15T15:34:39Z) - HiTab: A Hierarchical Table Dataset for Question Answering and Natural
Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。
この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文 参考訳(メタデータ) (2021-08-15T10:14:21Z) - CLTR: An End-to-End, Transformer-Based System for Cell Level Table
Retrieval and Table Question Answering [8.389189333083513]
本稿では,最初のエンドツーエンドのテーブル質問応答(QA)システムを提案する。
自然言語の質問と大量のテーブルコーパスを入力として、最も関係のあるテーブルを検索し、質問に答えるために正しいテーブルセルを見つける。
76,242テーブル上の2,005の自然言語質問からなる2つの新しいオープンドメインベンチマークであるE2E_WTQとE2E_GNQを導入する。
論文 参考訳(メタデータ) (2021-06-08T15:22:10Z) - Capturing Row and Column Semantics in Transformer Based Question
Answering over Tables [9.347393642549806]
これらの特化事前学習技術を用いることなく、テーブルQAタスクにおいて優れた性能が得られることを示す。
最近のベンチマーク実験では、提案手法が表上のセル値を効果的に検出できることが証明されている(ウィキ検索質問のhit@1精度は最大98%)。
論文 参考訳(メタデータ) (2021-04-16T18:22:30Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。