論文の概要: TABBIE: Pretrained Representations of Tabular Data
- arxiv url: http://arxiv.org/abs/2105.02584v1
- Date: Thu, 6 May 2021 11:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:30:22.912268
- Title: TABBIE: Pretrained Representations of Tabular Data
- Title(参考訳): tabbie: 表データの事前学習表現
- Authors: Hiroshi Iida, Dung Thai, Varun Manjunatha, Mohit Iyyer
- Abstract要約: 表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
- 参考スコア(独自算出の注目度): 22.444607481407633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing work on tabular representation learning jointly models tables and
associated text using self-supervised objective functions derived from
pretrained language models such as BERT. While this joint pretraining improves
tasks involving paired tables and text (e.g., answering questions about
tables), we show that it underperforms on tasks that operate over tables
without any associated text (e.g., populating missing cells). We devise a
simple pretraining objective (corrupt cell detection) that learns exclusively
from tabular data and reaches the state-of-the-art on a suite of table based
prediction tasks. Unlike competing approaches, our model (TABBIE) provides
embeddings of all table substructures (cells, rows, and columns), and it also
requires far less compute to train. A qualitative analysis of our model's
learned cell, column, and row representations shows that it understands complex
table semantics and numerical trends.
- Abstract(参考訳): 表表表現学習における既存の研究は、BERTのような事前学習言語モデルから導かれる自己教師型目的関数を用いて表と関連テキストを共同でモデル化する。
この共同事前訓練は、ペア化されたテーブルとテキスト(例えば、テーブルに関する質問に答える)に関わるタスクを改善するが、関連するテキスト(例えば、欠落したセル)なしでテーブル上で操作するタスクでは、パフォーマンスが低いことを示す。
本稿では,表データからのみ学習し,テーブルベースの予測タスクスイートで最先端に到達可能な,単純な事前学習目標(コラプトセル検出)を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブ構造(セル、行、列)の埋め込みを提供します。
学習したセル,列,行の表現の質的分析により,複雑なテーブルの意味と数値的傾向が分かる。
関連論文リスト
- OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Table Pre-training: A Survey on Model Architectures, Pretraining
Objectives, and Downstream Tasks [37.35651138851127]
テキストや画像の成功を受けて、テーブル事前学習フレームワークの急激な普及が提案されている。
テーブル事前トレーニングは通常、テーブル-テキスト共同トレーニングの形式を取る。
この調査は、さまざまなモデル設計、事前学習目標、およびテーブル事前学習のための下流タスクの包括的なレビューを提供することを目的としている。
論文 参考訳(メタデータ) (2022-01-24T15:22:24Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - Learning Better Representation for Tables by Self-Supervised Tasks [23.69766883380125]
本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。
本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
論文 参考訳(メタデータ) (2020-10-15T09:03:38Z) - Understanding tables with intermediate pre-training [11.96734018295146]
我々は、テーブルベースのBERTモデルであるTAPAASを適用して、エンターテイメントを認識する。
我々は,テーブルプルーニングを前処理ステップとして評価し,トレーニングと予測効率を大幅に向上させる。
論文 参考訳(メタデータ) (2020-10-01T17:43:27Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。