論文の概要: OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering
- arxiv url: http://arxiv.org/abs/2207.03637v1
- Date: Fri, 8 Jul 2022 01:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 13:43:30.538683
- Title: OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering
- Title(参考訳): OmniTab:Few-shot Tableベースの質問応答のための自然および合成データによる事前学習
- Authors: Zhengbao Jiang, Yi Mao, Pengcheng He, Graham Neubig, Weizhu Chen
- Abstract要約: 最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 106.73213656603453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The information in tables can be an important complement to text, making
table-based question answering (QA) systems of great value. The intrinsic
complexity of handling tables often adds an extra burden to both model design
and data annotation. In this paper, we aim to develop a simple table-based QA
model with minimal annotation effort. Motivated by the fact that table-based QA
requires both alignment between questions and tables and the ability to perform
complicated reasoning over multiple table elements, we propose an omnivorous
pretraining approach that consumes both natural and synthetic data to endow
models with these respective abilities. Specifically, given freely available
tables, we leverage retrieval to pair them with relevant natural sentences for
mask-based pretraining, and synthesize NL questions by converting SQL sampled
from tables for pretraining with a QA loss. We perform extensive experiments in
both few-shot and full settings, and the results clearly demonstrate the
superiority of our model OmniTab, with the best multitasking approach achieving
an absolute gain of 16.2% and 2.7% in 128-shot and full settings respectively,
also establishing a new state-of-the-art on WikiTableQuestions. Detailed
ablations and analyses reveal different characteristics of natural and
synthetic data, shedding light on future directions in omnivorous pretraining.
Code, pretraining data, and pretrained models are available at
https://github.com/jzbjyb/OmniTab.
- Abstract(参考訳): テーブル内の情報はテキストの重要な補完となり、テーブルベースの質問応答(QA)システムは大きな価値を持つ。
テーブルを扱う本質的な複雑さは、しばしばモデル設計とデータアノテーションの両方に余計な負担をもたらす。
本稿では,最小限のアノテーションで表型QAモデルを構築することを目的とする。
テーブルベースのQAは、質問とテーブル間の整合性と、複数のテーブル要素に対する複雑な推論を行う能力の両方を必要とすることから、自然データと合成データの両方を消費し、これらの能力を持つモデルを構築するという、雑多な事前学習手法を提案する。
具体的には、自由なテーブルが与えられた場合、検索を利用して関連する自然文と組み合わせてマスクベースの事前学習を行い、QA損失を伴う事前学習のためにテーブルからサンプリングしたSQLを変換してNL質問を合成する。
最善のマルチタスキングアプローチは、それぞれ128ショットとフルセッティングで16.2%と2.7%という絶対的なゲインを達成し、ウィキテーブルクエストに関する新たな最先端技術を確立しました。
詳細なアブレーションと分析により、自然および合成データの異なる特性が明らかとなり、雑食前訓練における将来の方向への光が遮蔽される。
コード、事前トレーニングデータ、事前トレーニングされたモデルはhttps://github.com/jzbjyb/OmniTab.comで入手できる。
関連論文リスト
- KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Understanding tables with intermediate pre-training [11.96734018295146]
我々は、テーブルベースのBERTモデルであるTAPAASを適用して、エンターテイメントを認識する。
我々は,テーブルプルーニングを前処理ステップとして評価し,トレーニングと予測効率を大幅に向上させる。
論文 参考訳(メタデータ) (2020-10-01T17:43:27Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。