論文の概要: SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.19308v2
- Date: Mon, 30 Oct 2023 06:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:50:35.779644
- Title: SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models
- Title(参考訳): sheetcopilot: 大規模言語モデルによるソフトウェア生産性の次のレベルへ
- Authors: Hongxin Li, Jingran Su, Yuntao Chen, Qing Li, Zhaoxiang Zhang
- Abstract要約: 本研究では,スプレッドシートの要求を満たすために自然言語処理と制御を行うスプレッドシートコパイロットエージェントを提案する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし,完全自動評価パイプラインを構築した。
当社の SheetCopilot は1世代で44.3% のタスクを正しく完了し、強力なコード生成ベースラインを広いマージンで上回っている。
- 参考スコア(独自算出の注目度): 60.171444066848856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer end users have spent billions of hours completing daily tasks like
tabular data processing and project timeline scheduling. Most of these tasks
are repetitive and error-prone, yet most end users lack the skill to automate
these burdensome works. With the advent of large language models (LLMs),
directing software with natural language user requests become a reachable goal.
In this work, we propose a SheetCopilot agent that takes natural language task
and control spreadsheet to fulfill the requirements. We propose a set of atomic
actions as an abstraction of spreadsheet software functionalities. We further
design a state machine-based task planning framework for LLMs to robustly
interact with spreadsheets. We curate a representative dataset containing 221
spreadsheet control tasks and establish a fully automated evaluation pipeline
for rigorously benchmarking the ability of LLMs in software control tasks. Our
SheetCopilot correctly completes 44.3\% of tasks for a single generation,
outperforming the strong code generation baseline by a wide margin. Our project
page:https://sheetcopilot.github.io/.
- Abstract(参考訳): コンピュータのエンドユーザーは、表データ処理やプロジェクトスケジュールスケジューリングといった日々のタスクを何十億時間も完了させてきた。
これらのタスクのほとんどは反復的でエラーを起こしやすいが、ほとんどのエンドユーザーはこうした面倒な作業を自動化するスキルが欠けている。
大規模言語モデル(LLM)の出現により、自然言語ユーザ要求によるソフトウェア指向が到達可能な目標となっている。
本研究では,自然言語処理とスプレッドシート制御を併用して要求を満たすシートコパイロットエージェントを提案する。
本稿では,スプレッドシートソフトウェア機能の抽象化として,アトミックアクションのセットを提案する。
我々はさらに、LLMがスプレッドシートと堅牢に対話するための状態マシンベースのタスク計画フレームワークを設計する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし、ソフトウェア制御タスクにおけるLLMの能力を厳格にベンチマークするための完全自動評価パイプラインを確立する。
当社の SheetCopilot は,単一世代のタスクの 44.3 % を正しく完了し,強力なコード生成ベースラインを広いマージンで上回っている。
プロジェクトページ:https://sheetcopilot.github.io/
関連論文リスト
- Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - TableTalk: Scaffolding Spreadsheet Development with a Language Agent [20.560984872689414]
TableTalkは、プログラマが会話でスプレッドシートを構築するのを助ける言語エージェントである。
その設計は、スキャフォールディング、柔軟性、漸進性の3つの設計原則を再定義する。
20人のプログラマによるユーザ調査によると、TableTalkは2.3倍のスプレッドシートが好まれる傾向にある。
論文 参考訳(メタデータ) (2025-02-13T21:43:51Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks [31.031053149807857]
我々は、33のツールを含む4K以上のマルチステップマルチモーダルタスクを含むベンチマークであるm&m'sを紹介する。
これら各タスククエリに対して、この現実的なツールセットを使用して自動生成されたプランを提供する。
1,565のタスクプランの高品質なサブセットを提供する。
論文 参考訳(メタデータ) (2024-03-17T04:36:18Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - AutoScrum: Automating Project Planning Using Large Language Models [0.0]
大規模言語モデルは、高度な推論に言語モデルを使用することを可能にした。
本稿では、この能力を利用して、現在の状況と望ましい状態を知ることのみに基づいて、複雑なプロジェクト計画を設計する。
スクラムベースのアプローチとショートカットプランアプローチの2つのアプローチが実証されている。
論文 参考訳(メタデータ) (2023-06-05T19:16:37Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。