論文の概要: PASTA: Table-Operations Aware Fact Verification via Sentence-Table Cloze
Pre-training
- arxiv url: http://arxiv.org/abs/2211.02816v1
- Date: Sat, 5 Nov 2022 05:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:08:59.360500
- Title: PASTA: Table-Operations Aware Fact Verification via Sentence-Table Cloze
Pre-training
- Title(参考訳): PASTA: Sentence-Table Cloze Pre-trainingによるファクト検証を意識したテーブル操作
- Authors: Zihui Gu, Ju Fan, Nan Tang, Preslav Nakov, Xiaoman Zhao, Xiaoyong Du
- Abstract要約: PASTAは、合成文テーブルのクローゼ質問による事前学習によるテーブルベースの事実検証のための新しいフレームワークである。
テーブルベースの事実検証ベンチマークであるTabFactとSEM-TAB-FACTSで、最先端のパフォーマンスを新たに実現している。
- 参考スコア(独自算出の注目度): 35.83212449201955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fact verification has attracted a lot of research attention recently, e.g.,
in journalism, marketing, and policymaking, as misinformation and
disinformation online can sway one's opinion and affect one's actions. While
fact-checking is a hard task in general, in many cases, false statements can be
easily debunked based on analytics over tables with reliable information.
Hence, table-based fact verification has recently emerged as an important and
growing research area. Yet, progress has been limited due to the lack of
datasets that can be used to pre-train language models (LMs) to be aware of
common table operations, such as aggregating a column or comparing tuples. To
bridge this gap, in this paper we introduce PASTA, a novel state-of-the-art
framework for table-based fact verification via pre-training with synthesized
sentence-table cloze questions. In particular, we design six types of common
sentence-table cloze tasks, including Filter, Aggregation, Superlative,
Comparative, Ordinal, and Unique, based on which we synthesize a large corpus
consisting of 1.2 million sentence-table pairs from WikiTables. PASTA uses a
recent pre-trained LM, DeBERTaV3, and further pretrains it on our corpus. Our
experimental results show that PASTA achieves new state-of-the-art performance
on two table-based fact verification benchmarks: TabFact and SEM-TAB-FACTS. In
particular, on the complex set of TabFact, which contains multiple operations,
PASTA largely outperforms the previous state of the art by 4.7 points (85.6%
vs. 80.9%), and the gap between PASTA and human performance on the small
TabFact test set is narrowed to just 1.5 points (90.6% vs. 92.1%).
- Abstract(参考訳): 事実の検証は近年、ジャーナリズム、マーケティング、政策立案など、多くの研究の注目を集めている。
ファクトチェックは一般的には難しい作業だが、多くの場合、信頼できる情報を持つテーブル上の分析に基づいて偽文を簡単に削除することができる。
したがって、テーブルベースの事実検証は、近年重要で成長している研究領域として現れている。
しかし、列の集約やタプルの比較など、一般的なテーブル操作を認識するために、言語モデル(LM)を事前トレーニングするために使用できるデータセットがないため、進歩は限られている。
このギャップを埋めるために、本稿では、合成文表クローゼ質問による事前学習によるテーブルベースの事実検証のための新しい最先端フレームワークであるPASTAを紹介する。
特に, WikiTablesから120万の文表ペアからなる大コーパスを合成し, フィルタ, アグリゲーション, スーパーラティブ, 比較, 順序, ユニクといった6種類の共通文表クローズタスクを設計する。
PASTAは、最近トレーニング済みのLMであるDeBERTaV3を使用し、私たちのコーパスでさらに事前トレーニングを行います。
実験の結果,PASTAはTabFactとSEM-TAB-FACTSという2つのテーブルベースの事実検証ベンチマークにおいて,新たな最先端性能を実現することがわかった。
特に、複数の操作を含むTabFactの複雑なセットでは、PASTAはアートの以前の状態を4.7ポイント(85.6%対80.9%)で上回り、小さなTabFactテストセットでのPASTAと人間のパフォーマンスのギャップは1.5ポイント(90.6%対92.1%)に狭められている。
関連論文リスト
- A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition [6.253771639590562]
テーブル推論は、自然言語の質問と構造化データの両方を理解する必要がある難しいタスクである。
テキスト・ツー・ジェネレーションを利用したテーブルを,より小さく,関連するサブテーブルに分解する新しい方法であるTabifyを提案する。
WikiTQベンチマークでは,64.7%の精度で精度が向上した。
論文 参考訳(メタデータ) (2024-04-15T21:42:20Z) - TDeLTA: A Light-weight and Robust Table Detection Method based on
Learning Text Arrangement [34.73880086005418]
本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。
表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。
いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
論文 参考訳(メタデータ) (2023-12-18T09:18:43Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Bridge the Gap between Language models and Tabular Understanding [99.88470271644894]
自然言語領域における事前学習の成功以降,テーブル事前学習のパラダイムが提案され,急速に採用されている。
有望な発見にもかかわらず、事前トレーニングと微調整フェーズの間には入力ギャップがある。
UTPは,テーブルテキスト,テーブル,テキストの3種類のマルチモーダル入力を動的にサポートする手法である。
論文 参考訳(メタデータ) (2023-02-16T15:16:55Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - TAPEX: Table Pre-training via Learning a Neural SQL Executor [30.42792528200044]
人工コーパス上で神経実行器を学習することにより、テーブル事前学習を実現することができることを示す。
合成コーパスの事前学習により,我々のアプローチであるTAPEXは下流タスクの性能を劇的に向上させる。
本研究は, 合成可能プログラムの事前学習により, 構造化されたデータを解析する方法を開放する。
論文 参考訳(メタデータ) (2021-07-16T00:40:11Z) - BreakingBERT@IITK at SemEval-2021 Task 9 : Statement Verification and
Evidence Finding with Tables [1.78256232654567]
我々は,事実の検証と証拠発見の問題を表データ上で解決する。
与えられたSemTabFactデータセットのベースラインと最先端のアプローチを比較します。
また,自然言語推論タスクの一形態としてエビデンスを解くための新しいアプローチCellBERTを提案する。
論文 参考訳(メタデータ) (2021-04-07T11:41:07Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。