論文の概要: FLAME: A small language model for spreadsheet formulas
- arxiv url: http://arxiv.org/abs/2301.13779v2
- Date: Tue, 19 Dec 2023 22:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:22:17.057106
- Title: FLAME: A small language model for spreadsheet formulas
- Title(参考訳): FLAME:スプレッドシート式のための小さな言語モデル
- Authors: Harshit Joshi, Abishai Ebenezer, Jos\'e Cambronero, Sumit Gulwani,
Aditya Kanade, Vu Le, Ivan Radi\v{c}ek, Gust Verbruggen
- Abstract要約: 本稿では,Excel 公式に特化して訓練されたトランスフォーマーモデル FLAME を提案する。
我々はスケッチデデュープリケーションを使用し、Excel固有の式トークンを導入し、マスキングスパン予測のドメイン固有のバージョンを使用する。
FLAMEは, 補修, 補修, 類似性に基づく定式検索について評価する。
- 参考スコア(独自算出の注目度): 25.667479554632735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spreadsheets are a vital tool for end-user data management. Using large
language models for formula authoring assistance in these environments can be
difficult, as these models are expensive to train and challenging to deploy due
to their size (up to billions of parameters). We present FLAME, a
transformer-based model trained exclusively on Excel formulas that leverages
domain insights to achieve competitive performance while being substantially
smaller (60M parameters) and training on two orders of magnitude less data. We
curate a training dataset using sketch deduplication, introduce an
Excel-specific formula tokenizer, and use domain-specific versions of masked
span prediction and noisy auto-encoding as pre-training objectives. We evaluate
FLAME on formula repair, formula completion, and similarity-based formula
retrieval. FLAME can outperform much larger models, such as the Davinci (175B)
and Cushman (12B) variants of Codex and CodeT5 (220M), in 10 of 14 evaluation
settings for the repair and completion tasks. For formula retrieval, FLAME
outperforms CodeT5, CodeBERT, and GraphCodeBERT.
- Abstract(参考訳): スプレッドシートはエンドユーザのデータ管理に不可欠なツールです。
これらの環境で公式オーサリング支援に大規模な言語モデルを使用することは、トレーニングが高価で、そのサイズ(最大10億のパラメータ)のためデプロイが難しいため、難しい場合がある。
本稿では,Excel 公式にのみ準拠するトランスフォーマーモデル FLAME について述べる。このモデルでは,領域の洞察を活用して,より小さく(60M パラメータ)かつ2桁少ないデータでトレーニングし,競争性能を実現する。
スケッチ重複を利用したトレーニングデータセットをキュレートし、excel特有の公式トークン化を導入し、マスクスパン予測とノイズの自動エンコーディングのドメイン固有バージョンを事前学習目標として使用する。
FLAMEは, 補修, 補修, 類似性に基づく公式検索について評価する。
FLAMEはDavinci (175B) や Cushman (12B) の Codex や CodeT5 (220M) など、修理作業と完了作業の14つの評価設定のうち10つである。
公式検索では、FLAMEはCodeT5、CodeBERT、GraphCodeBERTより優れている。
関連論文リスト
- SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.08092362611575]
SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。
LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。
SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
論文 参考訳(メタデータ) (2024-07-12T06:34:21Z) - Auto-Formula: Recommend Formulas in Spreadsheets using Contrastive Learning for Table Representations [36.2969566996675]
我々は,ユーザがターゲットのスプレッドシートセルで書きたい公式を正確に予測するオートフォーミュラシステムを開発した。
コンピュータビジョンの「類似顔認識」にインスパイアされたコントラスト学習技術を用いている。
論文 参考訳(メタデータ) (2024-04-19T03:28:18Z) - GP-MoLFormer: A Foundation Model For Molecular Generation [31.569161097828893]
本研究では,大規模ケミカルデータセット上での化学言語トランスフォーマーの訓練パラダイムを,本研究における生成タスクにまで拡張する。
具体的には, GP-MoLFormerを提案する。GP-MoLFormerは1.1B以上のケミカルSMILESをトレーニングした自己回帰分子文字列生成装置である。
GP-MoLFormerは、生成分子の数が100億の範囲にあり、参照集合が10億を超える場合でも、かなりの数の新規かつ有効でユニークなSMILESを生成することができる。
論文 参考訳(メタデータ) (2024-04-04T16:20:06Z) - NL2Formula: Generating Spreadsheet Formulas from Natural Language
Queries [29.33149993368329]
本稿では,NL2Formulaと呼ばれる新しいベンチマークタスクを紹介する。
目的は、自然言語(NL)クエリを入力として、スプレッドシートテーブル上にグラウンドされた実行可能な式を生成することである。
我々は,70,799対のNLクエリと対応するスプレッドシート公式からなる包括的データセットを構築し,21,670のテーブルと37種類の公式関数を網羅した。
論文 参考訳(メタデータ) (2024-02-20T05:58:05Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Benchmarking Diverse-Modal Entity Linking with Generative Models [78.93737257356784]
既存の EL データセットから様々なモード EL (DMEL) のベンチマークを構築した。
DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。
GDMMは、より強力なDMELベースラインを構築し、平均8.51F1スコアで最先端のタスク固有のELモデルを上回っている。
論文 参考訳(メタデータ) (2023-05-27T02:38:46Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - FORTAP: Using Formulae for Numerical-Reasoning-Aware Table Pretraining [23.747119682226675]
FORTAPは, スプレッドシート公式の大規模コーパスを活用することで, 事前学習を行うための最初の方法である。
FORTAPは、セルタイプ分類と公式予測という、2つの典型的な下流タスクで結果を得る。
論文 参考訳(メタデータ) (2021-09-15T14:31:17Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。