論文の概要: SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.19308v1
- Date: Tue, 30 May 2023 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 20:17:41.402911
- Title: SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models
- Title(参考訳): sheetcopilot: 大規模言語モデルによるソフトウェア生産性の次のレベルへ
- Authors: Hongxin Li, Jingran Su, Yuntao Chen, Qing Li, Zhaoxiang Zhang
- Abstract要約: 本研究では,スプレッドシートの要求を満たすために自然言語処理と制御を行うスプレッドシートコパイロットエージェントを提案する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし,完全自動評価パイプラインを構築した。
当社の SheetCopilot は1世代で44.3% のタスクを正しく完了し、強力なコード生成ベースラインを広いマージンで上回っている。
- 参考スコア(独自算出の注目度): 49.31207539944453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer end users have spent billions of hours completing daily tasks like
tabular data processing and project timeline scheduling. Most of these tasks
are repetitive and error-prone, yet most end users lack the skill of automating
away these burdensome works. With the advent of large language models (LLMs),
directing software with natural language user requests become a reachable goal.
In this work, we propose a SheetCopilot agent which takes natural language task
and control spreadsheet to fulfill the requirements. We propose a set of atomic
actions as an abstraction of spreadsheet software functionalities. We further
design a state machine-based task planning framework for LLMs to robustly
interact with spreadsheets. We curate a representative dataset containing 221
spreadsheet control tasks and establish a fully automated evaluation pipeline
for rigorously benchmarking the ability of LLMs in software control tasks. Our
SheetCopilot correctly completes 44.3\% of tasks for a single generation,
outperforming the strong code generation baseline by a wide margin. Our project
page:https://sheetcopilot-demo.github.io/.
- Abstract(参考訳): コンピュータのエンドユーザーは、表データ処理やプロジェクトスケジュールスケジューリングといった日々のタスクを何十億時間も完了させてきた。
これらのタスクの多くは反復的かつエラーを起こしやすいが、ほとんどのエンドユーザは、これらの負担のかかる作業を自動化するスキルを欠いている。
大規模言語モデル(LLM)の出現により、自然言語ユーザ要求によるソフトウェア指向が到達可能な目標となっている。
そこで本研究では,自然言語タスクを取り込んでスプレッドシートを制御するためのシートコパイロットエージェントを提案する。
本稿では,スプレッドシートソフトウェア機能の抽象化として,アトミックアクションのセットを提案する。
我々はさらに、LLMがスプレッドシートと堅牢に対話するための状態マシンベースのタスク計画フレームワークを設計する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし、ソフトウェア制御タスクにおけるLLMの能力を厳格にベンチマークするための完全自動評価パイプラインを確立する。
当社の SheetCopilot は,単一世代のタスクの 44.3 % を正しく完了し,強力なコード生成ベースラインを広いマージンで上回っている。
プロジェクトページ:https://sheetcopilot-demo.github.io/
関連論文リスト
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks [31.031053149807857]
我々は、33のツールを含む4K以上のマルチステップマルチモーダルタスクを含むベンチマークであるm&m'sを紹介する。
これら各タスククエリに対して、この現実的なツールセットを使用して自動生成されたプランを提供する。
1,565のタスクプランの高品質なサブセットを提供する。
論文 参考訳(メタデータ) (2024-03-17T04:36:18Z) - SheetAgent: A Generalist Agent for Spreadsheet Reasoning and
Manipulation via Large Language Models [42.66860424511231]
大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。
我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークである$textbfSheetRM$を紹介した。
さらに,LLMのパワーを利用した新しい自律エージェントであるtextbfSheetAgent$を提案する。
論文 参考訳(メタデータ) (2024-03-06T11:48:08Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist
Autonomous Agents for Desktop and Web [45.79408296386536]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - AutoScrum: Automating Project Planning Using Large Language Models [0.0]
大規模言語モデルは、高度な推論に言語モデルを使用することを可能にした。
本稿では、この能力を利用して、現在の状況と望ましい状態を知ることのみに基づいて、複雑なプロジェクト計画を設計する。
スクラムベースのアプローチとショートカットプランアプローチの2つのアプローチが実証されている。
論文 参考訳(メタデータ) (2023-06-05T19:16:37Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large
Language Models [27.318186938382233]
本研究では,大規模言語モデル(LLM)を具体化エージェントのプランナーとして用いることに焦点を当てた。
そこで本研究では,大規模言語モデルのパワーを活かして少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。
論文 参考訳(メタデータ) (2022-12-08T05:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。