論文の概要: NL2Formula: Generating Spreadsheet Formulas from Natural Language
Queries
- arxiv url: http://arxiv.org/abs/2402.14853v1
- Date: Tue, 20 Feb 2024 05:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:28:16.835505
- Title: NL2Formula: Generating Spreadsheet Formulas from Natural Language
Queries
- Title(参考訳): NL2Formula:自然言語クエリからスプレッドシート式を生成する
- Authors: Wei Zhao, Zhitao Hou, Siyuan Wu, Yan Gao, Haoyu Dong, Yao Wan, Hongyu
Zhang, Yulei Sui, Haidong Zhang
- Abstract要約: 本稿では,NL2Formulaと呼ばれる新しいベンチマークタスクを紹介する。
目的は、自然言語(NL)クエリを入力として、スプレッドシートテーブル上にグラウンドされた実行可能な式を生成することである。
我々は,70,799対のNLクエリと対応するスプレッドシート公式からなる包括的データセットを構築し,21,670のテーブルと37種類の公式関数を網羅した。
- 参考スコア(独自算出の注目度): 29.33149993368329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Writing formulas on spreadsheets, such as Microsoft Excel and Google Sheets,
is a widespread practice among users performing data analysis. However,
crafting formulas on spreadsheets remains a tedious and error-prone task for
many end-users, particularly when dealing with complex operations. To alleviate
the burden associated with writing spreadsheet formulas, this paper introduces
a novel benchmark task called NL2Formula, with the aim to generate executable
formulas that are grounded on a spreadsheet table, given a Natural Language
(NL) query as input. To accomplish this, we construct a comprehensive dataset
consisting of 70,799 paired NL queries and corresponding spreadsheet formulas,
covering 21,670 tables and 37 types of formula functions. We realize the
NL2Formula task by providing a sequence-to-sequence baseline implementation
called fCoder. Experimental results validate the effectiveness of fCoder,
demonstrating its superior performance compared to the baseline models.
Furthermore, we also compare fCoder with an initial GPT-3.5 model (i.e.,
text-davinci-003). Lastly, through in-depth error analysis, we identify
potential challenges in the NL2Formula task and advocate for further
investigation.
- Abstract(参考訳): Microsoft ExcelやGoogle Sheetsなどのスプレッドシートに公式を記述することは、データ分析を行うユーザの間で広く行われているプラクティスである。
しかし、特に複雑な操作を扱う場合、スプレッドシート上の公式の作成は、多くのエンドユーザにとって面倒でエラーを起こしやすい作業である。
本報告では,スプレッドシートの計算式作成に伴う負担を軽減するため,NL2Formulaと呼ばれる新しいベンチマークタスクを導入し,自然言語(NL)クエリを入力として,スプレッドシートテーブルをベースとした実行可能式を生成する。
これを実現するために,21,670表と37種類の式関数をカバーする70,799組のnlクエリと対応する表計算式からなる総合データセットを構築した。
我々は、fCoderと呼ばれるシーケンス間ベースライン実装を提供することで、NL2Formulaタスクを実現する。
実験により,fCoderの有効性を検証し,ベースラインモデルと比較して優れた性能を示した。
さらに、fCoderを初期GPT-3.5モデル(text-davinci-003)と比較する。
最後に,NL2Formulaタスクにおける潜在的な課題を特定し,さらなる調査を提唱する。
関連論文リスト
- SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.08092362611575]
SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。
LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。
SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
論文 参考訳(メタデータ) (2024-07-12T06:34:21Z) - Auto-Formula: Recommend Formulas in Spreadsheets using Contrastive Learning for Table Representations [36.2969566996675]
我々は,ユーザがターゲットのスプレッドシートセルで書きたい公式を正確に予測するオートフォーミュラシステムを開発した。
コンピュータビジョンの「類似顔認識」にインスパイアされたコントラスト学習技術を用いている。
論文 参考訳(メタデータ) (2024-04-19T03:28:18Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - InstructExcel: A Benchmark for Natural Language Instruction in Excel [72.018640505825]
本研究は,大規模言語モデルが自然言語ユーザ命令を通じて提供されるExcel固有のタスクを解くコードを生成することができるかどうかを考察する。
私たちのベンチマークには、2000の公開Excelスプレッドシートにわたる170以上のExcel操作をカバーする10万以上のサンプルが含まれています。
我々は,(1) GPT-4 over GPT-3.5,(2) よりコンテキスト内での例を提供し,(3) 動的プロンプトは,このベンチマークの性能向上に役立つことを観察した。
論文 参考訳(メタデータ) (2023-10-23T02:00:55Z) - SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models [60.171444066848856]
本研究では,スプレッドシートの要求を満たすために自然言語処理と制御を行うスプレッドシートコパイロットエージェントを提案する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし,完全自動評価パイプラインを構築した。
当社の SheetCopilot は1世代で44.3% のタスクを正しく完了し、強力なコード生成ベースラインを広いマージンで上回っている。
論文 参考訳(メタデータ) (2023-05-30T17:59:30Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - FLAME: A small language model for spreadsheet formulas [25.667479554632735]
本稿では,Excel 公式に特化して訓練されたトランスフォーマーモデル FLAME を提案する。
我々はスケッチデデュープリケーションを使用し、Excel固有の式トークンを導入し、マスキングスパン予測のドメイン固有のバージョンを使用する。
FLAMEは, 補修, 補修, 類似性に基づく定式検索について評価する。
論文 参考訳(メタデータ) (2023-01-31T17:29:43Z) - FORTAP: Using Formulae for Numerical-Reasoning-Aware Table Pretraining [23.747119682226675]
FORTAPは, スプレッドシート公式の大規模コーパスを活用することで, 事前学習を行うための最初の方法である。
FORTAPは、セルタイプ分類と公式予測という、2つの典型的な下流タスクで結果を得る。
論文 参考訳(メタデータ) (2021-09-15T14:31:17Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。