論文の概要: SpreadsheetCoder: Formula Prediction from Semi-structured Context
- arxiv url: http://arxiv.org/abs/2106.15339v1
- Date: Sat, 26 Jun 2021 11:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:15:10.928477
- Title: SpreadsheetCoder: Formula Prediction from Semi-structured Context
- Title(参考訳): SpreadsheetCoder:半構造化コンテキストによる予測
- Authors: Xinyun Chen, Petros Maniatis, Rishabh Singh, Charles Sutton, Hanjun
Dai, Max Lin, Denny Zhou
- Abstract要約: 行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
- 参考スコア(独自算出の注目度): 70.41579328458116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spreadsheet formula prediction has been an important program synthesis
problem with many real-world applications. Previous works typically utilize
input-output examples as the specification for spreadsheet formula synthesis,
where each input-output pair simulates a separate row in the spreadsheet.
However, this formulation does not fully capture the rich context in real-world
spreadsheets. First, spreadsheet data entries are organized as tables, thus
rows and columns are not necessarily independent from each other. In addition,
many spreadsheet tables include headers, which provide high-level descriptions
of the cell data. However, previous synthesis approaches do not consider
headers as part of the specification. In this work, we present the first
approach for synthesizing spreadsheet formulas from tabular context, which
includes both headers and semi-structured tabular data. In particular, we
propose SpreadsheetCoder, a BERT-based model architecture to represent the
tabular context in both row-based and column-based formats. We train our model
on a large dataset of spreadsheets, and demonstrate that SpreadsheetCoder
achieves top-1 prediction accuracy of 42.51%, which is a considerable
improvement over baselines that do not employ rich tabular context. Compared to
the rule-based system, SpreadsheetCoder assists 82% more users in composing
formulas on Google Sheets.
- Abstract(参考訳): スプレッドシートの公式予測は多くの実世界の応用において重要なプログラム合成問題である。
従来の作品は、通常スプレッドシートの式合成の仕様として入出力の例を使用しており、各入出力のペアがスプレッドシートの別々の行をシミュレートする。
しかし、この定式化は現実世界のスプレッドシートのリッチなコンテキストを完全に捉えていない。
まず、スプレッドシートのデータエントリはテーブルとして整理されるので、列と列が必ずしも独立しているとは限らない。
さらに、多くのスプレッドシートテーブルには、セルデータの高レベルな記述を提供するヘッダが含まれている。
しかし、以前の合成アプローチではヘッダーを仕様の一部として考慮していない。
本稿では,ヘッダと半構造化表データの両方を含む表的なコンテキストから表計算式を合成する最初の手法を提案する。
特に、行ベースと列ベースの両方のフォーマットで表型コンテキストを表現するbertベースのモデルアーキテクチャであるスプレッドシートコーダを提案する。
私たちは、スプレッドシートの大規模なデータセットでモデルをトレーニングし、スプレッドシートコーダが42.51%のtop-1予測精度を達成することを実証しました。
ルールベースのシステムと比較して、SpreadsheetCoderは、Google Sheetsで公式を作成するユーザを82%増やす。
関連論文リスト
- SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.08092362611575]
SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。
LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。
SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
論文 参考訳(メタデータ) (2024-07-12T06:34:21Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation [34.8332394229927]
SpreadsheetBenchは,現在の大規模言語モデル(LLM)を,スプレッドシートユーザのワークフローにマージするように設計されている。
合成クエリと単純化されたスプレッドシートファイルに依存する既存のベンチマークとは異なり、SpreadsheetBenchはオンラインExcelフォーラムから収集された912の質問から作られている。
単一ラウンドおよび複数ラウンドの推論条件下での各種LLMの総合評価は,最先端モデル(SOTA)と人為的性能との間に大きなギャップがあることを示唆している。
論文 参考訳(メタデータ) (2024-06-21T09:06:45Z) - Auto-Formula: Recommend Formulas in Spreadsheets using Contrastive Learning for Table Representations [36.2969566996675]
我々は,ユーザがターゲットのスプレッドシートセルで書きたい公式を正確に予測するオートフォーミュラシステムを開発した。
コンピュータビジョンの「類似顔認識」にインスパイアされたコントラスト学習技術を用いている。
論文 参考訳(メタデータ) (2024-04-19T03:28:18Z) - NL2Formula: Generating Spreadsheet Formulas from Natural Language
Queries [29.33149993368329]
本稿では,NL2Formulaと呼ばれる新しいベンチマークタスクを紹介する。
目的は、自然言語(NL)クエリを入力として、スプレッドシートテーブル上にグラウンドされた実行可能な式を生成することである。
我々は,70,799対のNLクエリと対応するスプレッドシート公式からなる包括的データセットを構築し,21,670のテーブルと37種類の公式関数を網羅した。
論文 参考訳(メタデータ) (2024-02-20T05:58:05Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。