論文の概要: Understanding tables with intermediate pre-training
- arxiv url: http://arxiv.org/abs/2010.00571v2
- Date: Mon, 5 Oct 2020 12:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:00:31.925548
- Title: Understanding tables with intermediate pre-training
- Title(参考訳): 中間訓練による表の理解
- Authors: Julian Martin Eisenschlos, Syrine Krichene, Thomas M\"uller
- Abstract要約: 我々は、テーブルベースのBERTモデルであるTAPAASを適用して、エンターテイメントを認識する。
我々は,テーブルプルーニングを前処理ステップとして評価し,トレーニングと予測効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 11.96734018295146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table entailment, the binary classification task of finding if a sentence is
supported or refuted by the content of a table, requires parsing language and
table structure as well as numerical and discrete reasoning. While there is
extensive work on textual entailment, table entailment is less well studied. We
adapt TAPAS (Herzig et al., 2020), a table-based BERT model, to recognize
entailment. Motivated by the benefits of data augmentation, we create a
balanced dataset of millions of automatically created training examples which
are learned in an intermediate step prior to fine-tuning. This new data is not
only useful for table entailment, but also for SQA (Iyyer et al., 2017), a
sequential table QA task. To be able to use long examples as input of BERT
models, we evaluate table pruning techniques as a pre-processing step to
drastically improve the training and prediction efficiency at a moderate drop
in accuracy. The different methods set the new state-of-the-art on the TabFact
(Chen et al., 2020) and SQA datasets.
- Abstract(参考訳): ある文が表の内容によってサポートされたり、反証されたりするかどうかを判断する二分分類タスクであるテーブルエンテーメントは、解析言語とテーブル構造、数値的および離散的推論を必要とする。
文章の補足に関する広範な研究があるが、表の補足についてはあまり研究されていない。
我々は、テーブルベースのBERTモデルであるTAAS(Herzig et al., 2020)を適応させ、エンテーメントを認識する。
データ拡張の利点に触発された私たちは、数百万もの自動生成トレーニングサンプルのバランスの取れたデータセットを作成し、微調整の前に中間ステップで学習します。
この新たなデータは、テーブルの細部だけでなく、シーケンシャルなテーブルQAタスクであるSQA(Iyyer et al., 2017)にも有用である。
BERTモデルの入力として長い例を利用できるように、テーブルプルーニングを前処理ステップとして評価し、適度な精度でトレーニングと予測効率を大幅に向上させる。
異なる手法は、TabFact(Chen et al., 2020)とSQAデータセットに新しい最先端技術を設定する。
関連論文リスト
- Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Bridge the Gap between Language models and Tabular Understanding [99.88470271644894]
自然言語領域における事前学習の成功以降,テーブル事前学習のパラダイムが提案され,急速に採用されている。
有望な発見にもかかわらず、事前トレーニングと微調整フェーズの間には入力ギャップがある。
UTPは,テーブルテキスト,テーブル,テキストの3種類のマルチモーダル入力を動的にサポートする手法である。
論文 参考訳(メタデータ) (2023-02-16T15:16:55Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TAPAS: Weakly Supervised Table Parsing via Pre-training [16.661382998729067]
論理形式を生成せずにテーブル上で質問応答を行う手法であるTAPASを提案する。
我々は3つの異なる意味解析データセットを実験した。
TAPASは、最先端の精度を向上させることにより、セマンティックパーシングモデルよりも優れているか、あるいは競合することがわかった。
論文 参考訳(メタデータ) (2020-04-05T23:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。