論文の概要: SpreadsheetCoder: Formula Prediction from Semi-structured Context
- arxiv url: http://arxiv.org/abs/2106.15339v1
- Date: Sat, 26 Jun 2021 11:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:15:10.928477
- Title: SpreadsheetCoder: Formula Prediction from Semi-structured Context
- Title(参考訳): SpreadsheetCoder:半構造化コンテキストによる予測
- Authors: Xinyun Chen, Petros Maniatis, Rishabh Singh, Charles Sutton, Hanjun
Dai, Max Lin, Denny Zhou
- Abstract要約: 行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
- 参考スコア(独自算出の注目度): 70.41579328458116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spreadsheet formula prediction has been an important program synthesis
problem with many real-world applications. Previous works typically utilize
input-output examples as the specification for spreadsheet formula synthesis,
where each input-output pair simulates a separate row in the spreadsheet.
However, this formulation does not fully capture the rich context in real-world
spreadsheets. First, spreadsheet data entries are organized as tables, thus
rows and columns are not necessarily independent from each other. In addition,
many spreadsheet tables include headers, which provide high-level descriptions
of the cell data. However, previous synthesis approaches do not consider
headers as part of the specification. In this work, we present the first
approach for synthesizing spreadsheet formulas from tabular context, which
includes both headers and semi-structured tabular data. In particular, we
propose SpreadsheetCoder, a BERT-based model architecture to represent the
tabular context in both row-based and column-based formats. We train our model
on a large dataset of spreadsheets, and demonstrate that SpreadsheetCoder
achieves top-1 prediction accuracy of 42.51%, which is a considerable
improvement over baselines that do not employ rich tabular context. Compared to
the rule-based system, SpreadsheetCoder assists 82% more users in composing
formulas on Google Sheets.
- Abstract(参考訳): スプレッドシートの公式予測は多くの実世界の応用において重要なプログラム合成問題である。
従来の作品は、通常スプレッドシートの式合成の仕様として入出力の例を使用しており、各入出力のペアがスプレッドシートの別々の行をシミュレートする。
しかし、この定式化は現実世界のスプレッドシートのリッチなコンテキストを完全に捉えていない。
まず、スプレッドシートのデータエントリはテーブルとして整理されるので、列と列が必ずしも独立しているとは限らない。
さらに、多くのスプレッドシートテーブルには、セルデータの高レベルな記述を提供するヘッダが含まれている。
しかし、以前の合成アプローチではヘッダーを仕様の一部として考慮していない。
本稿では,ヘッダと半構造化表データの両方を含む表的なコンテキストから表計算式を合成する最初の手法を提案する。
特に、行ベースと列ベースの両方のフォーマットで表型コンテキストを表現するbertベースのモデルアーキテクチャであるスプレッドシートコーダを提案する。
私たちは、スプレッドシートの大規模なデータセットでモデルをトレーニングし、スプレッドシートコーダが42.51%のtop-1予測精度を達成することを実証しました。
ルールベースのシステムと比較して、SpreadsheetCoderは、Google Sheetsで公式を作成するユーザを82%増やす。
関連論文リスト
- NL2Formula: Generating Spreadsheet Formulas from Natural Language
Queries [29.33149993368329]
本稿では,NL2Formulaと呼ばれる新しいベンチマークタスクを紹介する。
目的は、自然言語(NL)クエリを入力として、スプレッドシートテーブル上にグラウンドされた実行可能な式を生成することである。
我々は,70,799対のNLクエリと対応するスプレッドシート公式からなる包括的データセットを構築し,21,670のテーブルと37種類の公式関数を網羅した。
論文 参考訳(メタデータ) (2024-02-20T05:58:05Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Spreadsheet computing with Finite Domain Constraint Enhancements [0.0]
本稿では,有限制約解法をスプレッドシート計算パラダイムにシームレスに組み込んだフレームワークを提案する。
このフレームワークは制約解決のためのインターフェースを提供し、スプレッドシートコンピューティングパラダイムをさらに強化する。
論文 参考訳(メタデータ) (2022-02-22T17:50:48Z) - FORTAP: Using Formulae for Numerical-Reasoning-Aware Table Pretraining [23.747119682226675]
FORTAPは, スプレッドシート公式の大規模コーパスを活用することで, 事前学習を行うための最初の方法である。
FORTAPは、セルタイプ分類と公式予測という、2つの典型的な下流タスクで結果を得る。
論文 参考訳(メタデータ) (2021-09-15T14:31:17Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。