論文の概要: FORTAP: Using Formulae for Numerical-Reasoning-Aware Table Pretraining
- arxiv url: http://arxiv.org/abs/2109.07323v1
- Date: Wed, 15 Sep 2021 14:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:49:31.387523
- Title: FORTAP: Using Formulae for Numerical-Reasoning-Aware Table Pretraining
- Title(参考訳): FORTAP:数値推論対応テーブル事前学習のためのフォーミュラの利用
- Authors: Zhoujun Cheng, Haoyu Dong, Fan Cheng, Ran Jia, Pengfei Wu, Shi Han,
Dongmei Zhang
- Abstract要約: FORTAPは, スプレッドシート公式の大規模コーパスを活用することで, 事前学習を行うための最初の方法である。
FORTAPは、セルタイプ分類と公式予測という、2つの典型的な下流タスクで結果を得る。
- 参考スコア(独自算出の注目度): 23.747119682226675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tables store rich numerical data, but numerical reasoning over tables is
still a challenge. In this paper, we find that the spreadsheet formula, which
performs calculations on numerical values in tables, is naturally a strong
supervision of numerical reasoning. More importantly, large amounts of
spreadsheets with expert-made formulae are available on the web and can be
obtained easily. FORTAP is the first method for numerical-reasoning-aware table
pretraining by leveraging large corpus of spreadsheet formulae. We design two
formula pretraining tasks to explicitly guide FORTAP to learn numerical
reference and calculation in semi-structured tables. FORTAP achieves
state-of-the-art results on two representative downstream tasks, cell type
classification and formula prediction, showing great potential of
numerical-reasoning-aware pretraining.
- Abstract(参考訳): テーブルは豊富な数値データを格納するが、テーブル上の数値推論は依然として難しい。
本稿では,表内の数値の計算を行うスプレッドシート公式が,自然に数値推論の強力な監督対象であることを示す。
さらに、Web上では、専門家による公式付き大量のスプレッドシートが利用可能であり、容易に入手することができる。
FORTAPは, スプレッドシート公式の大規模コーパスを利用して, 事前学習を行うための最初の方法である。
半構造化テーブルで数値参照と計算を学習するために、FOTAPを明示的にガイドする2つの定式前処理タスクを設計する。
FORTAPは、セルタイプ分類と公式予測という2つの典型的な下流タスクにおける最先端の成果を達成し、数値推論を意識した事前学習の可能性を示す。
関連論文リスト
- FLEXTAF: Enhancing Table Reasoning with Flexible Tabular Formats [48.47559543509975]
フレキシブルフォーマットを用いてテーブル推論性能を向上させるためのFLEXTAF-SingleとFLEXTAF-Voteを提案する。
WikiTableQuestionsとTabFactに関する我々の実験は、平均的な2.3%と4.8%の大幅な改善を示している。
論文 参考訳(メタデータ) (2024-08-16T17:00:11Z) - Auto-Formula: Recommend Formulas in Spreadsheets using Contrastive Learning for Table Representations [36.2969566996675]
我々は,ユーザがターゲットのスプレッドシートセルで書きたい公式を正確に予測するオートフォーミュラシステムを開発した。
コンピュータビジョンの「類似顔認識」にインスパイアされたコントラスト学習技術を用いている。
論文 参考訳(メタデータ) (2024-04-19T03:28:18Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - NL2Formula: Generating Spreadsheet Formulas from Natural Language
Queries [29.33149993368329]
本稿では,NL2Formulaと呼ばれる新しいベンチマークタスクを紹介する。
目的は、自然言語(NL)クエリを入力として、スプレッドシートテーブル上にグラウンドされた実行可能な式を生成することである。
我々は,70,799対のNLクエリと対応するスプレッドシート公式からなる包括的データセットを構築し,21,670のテーブルと37種類の公式関数を網羅した。
論文 参考訳(メタデータ) (2024-02-20T05:58:05Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - FLAME: A small language model for spreadsheet formulas [25.667479554632735]
本稿では,Excel 公式に特化して訓練されたトランスフォーマーモデル FLAME を提案する。
我々はスケッチデデュープリケーションを使用し、Excel固有の式トークンを導入し、マスキングスパン予測のドメイン固有のバージョンを使用する。
FLAMEは, 補修, 補修, 類似性に基づく定式検索について評価する。
論文 参考訳(メタデータ) (2023-01-31T17:29:43Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。