論文の概要: InstructExcel: A Benchmark for Natural Language Instruction in Excel
- arxiv url: http://arxiv.org/abs/2310.14495v1
- Date: Mon, 23 Oct 2023 02:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 23:22:35.213850
- Title: InstructExcel: A Benchmark for Natural Language Instruction in Excel
- Title(参考訳): InstructExcel:Excelの自然言語命令ベンチマーク
- Authors: Justin Payan, Swaroop Mishra, Mukul Singh, Carina Negreanu, Christian
Poelitz, Chitta Baral, Subhro Roy, Rasika Chakravarthy, Benjamin Van Durme,
and Elnaz Nouri
- Abstract要約: 本研究は,大規模言語モデルが自然言語ユーザ命令を通じて提供されるExcel固有のタスクを解くコードを生成することができるかどうかを考察する。
私たちのベンチマークには、2000の公開Excelスプレッドシートにわたる170以上のExcel操作をカバーする10万以上のサンプルが含まれています。
我々は,(1) GPT-4 over GPT-3.5,(2) よりコンテキスト内での例を提供し,(3) 動的プロンプトは,このベンチマークの性能向上に役立つことを観察した。
- 参考スコア(独自算出の注目度): 72.018640505825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the evolution of Large Language Models (LLMs) we can solve increasingly
more complex NLP tasks across various domains, including spreadsheets. This
work investigates whether LLMs can generate code (Excel OfficeScripts, a
TypeScript API for executing many tasks in Excel) that solves Excel specific
tasks provided via natural language user instructions. To do so we introduce a
new large-scale benchmark, InstructExcel, created by leveraging the 'Automate'
feature in Excel to automatically generate OfficeScripts from users' actions.
Our benchmark includes over 10k samples covering 170+ Excel operations across
2,000 publicly available Excel spreadsheets. Experiments across various
zero-shot and few-shot settings show that InstructExcel is a hard benchmark for
state of the art models like GPT-4. We observe that (1) using GPT-4 over
GPT-3.5, (2) providing more in-context examples, and (3) dynamic prompting can
help improve performance on this benchmark.
- Abstract(参考訳): LLM(Large Language Models)の進化により、スプレッドシートを含む様々な領域にわたるより複雑なNLPタスクを解決できる。
この研究は、LLMがコード(Excelで多くのタスクを実行するTypeScript APIであるExcel OfficeScripts)を生成することができるかどうかを調査する。
そのためには、Excelの'Automate'機能を活用して、ユーザのアクションからOfficeScriptを自動的に生成する、新しい大規模ベンチマークであるInstructExcelを導入しました。
ベンチマークには、公開公開のexcelスプレッドシートで170以上のexcel操作をカバーする10k以上のサンプルが含まれています。
さまざまなゼロショットと少数ショット設定の実験は、InstructExcelがGPT-4のようなアートモデルのハードベンチマークであることを示している。
我々は,(1) GPT-4 over GPT-3.5,(2) よりコンテキスト内での例を提供し,(3) 動的プロンプトは,このベンチマークの性能向上に役立つことを観察した。
関連論文リスト
- Table-LLM-Specialist: Language Model Specialists for Tables using Iterative Generator-Validator Fine-tuning [52.08794743921141]
本稿では,テーブルタスクに特化して設計された自己学習ファインチューニングパラダイムとして,テーブル-LLM-スペシャリスト(Table-LLM-Specialist,略してテーブル-スペシャリスト)を提案する。
論文 参考訳(メタデータ) (2024-10-16T02:04:17Z) - Excel: Automated Ledger or Analytics IDE? [0.0]
スプレッドシートは段階的に変換され、単純な台帳自動化ツールから現在のExcelへと進化した。
Excelには、完全に機能するデータベース、OLAPエンジン、複数の統計プログラミング言語、複数のサードパーティソフトウェアライブラリ、動的チャート、リアルタイムデータコネクタが含まれる。
この特有な開発環境を管理するための包括的リスク・フレームワークを確立することの重要性は明らかである。
論文 参考訳(メタデータ) (2024-09-03T01:12:52Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - NL2Formula: Generating Spreadsheet Formulas from Natural Language
Queries [29.33149993368329]
本稿では,NL2Formulaと呼ばれる新しいベンチマークタスクを紹介する。
目的は、自然言語(NL)クエリを入力として、スプレッドシートテーブル上にグラウンドされた実行可能な式を生成することである。
我々は,70,799対のNLクエリと対応するスプレッドシート公式からなる包括的データセットを構築し,21,670のテーブルと37種類の公式関数を網羅した。
論文 参考訳(メタデータ) (2024-02-20T05:58:05Z) - Reducing Errors in Excel Models with Component-Based Software
Engineering [0.0]
LAMBDAはExcelの公式から関数を生成するExcel関数である。
LAMBDA関数はExcel関数と同じように、どんなプロジェクトでも再利用できる。
論文 参考訳(メタデータ) (2023-08-31T20:28:48Z) - ChatGPT and Excel -- trust, but verify [0.0]
本稿では、ChatGPTに対する批判的なアプローチを採用し、その膨大なリーチが、単純な要件を持つ人々にとって有用なツールであることを示している。
システムとユーザプロンプトを備えたExcelscriptボタンを、Excelデスクトップ環境にChatGPT APIに追加する実践的なガイドで締めくくっている。
論文 参考訳(メタデータ) (2023-08-31T20:21:02Z) - SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models [60.171444066848856]
本研究では,スプレッドシートの要求を満たすために自然言語処理と制御を行うスプレッドシートコパイロットエージェントを提案する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし,完全自動評価パイプラインを構築した。
当社の SheetCopilot は1世代で44.3% のタスクを正しく完了し、強力なコード生成ベースラインを広いマージンで上回っている。
論文 参考訳(メタデータ) (2023-05-30T17:59:30Z) - Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (2023-02-09T16:49:57Z) - FLAME: A small language model for spreadsheet formulas [25.667479554632735]
本稿では,Excel 公式に特化して訓練されたトランスフォーマーモデル FLAME を提案する。
我々はスケッチデデュープリケーションを使用し、Excel固有の式トークンを導入し、マスキングスパン予測のドメイン固有のバージョンを使用する。
FLAMEは, 補修, 補修, 類似性に基づく定式検索について評価する。
論文 参考訳(メタデータ) (2023-01-31T17:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。