論文の概要: SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.19308v2
- Date: Mon, 30 Oct 2023 06:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:50:35.779644
- Title: SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models
- Title(参考訳): sheetcopilot: 大規模言語モデルによるソフトウェア生産性の次のレベルへ
- Authors: Hongxin Li, Jingran Su, Yuntao Chen, Qing Li, Zhaoxiang Zhang
- Abstract要約: 本研究では,スプレッドシートの要求を満たすために自然言語処理と制御を行うスプレッドシートコパイロットエージェントを提案する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし,完全自動評価パイプラインを構築した。
当社の SheetCopilot は1世代で44.3% のタスクを正しく完了し、強力なコード生成ベースラインを広いマージンで上回っている。
- 参考スコア(独自算出の注目度): 60.171444066848856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer end users have spent billions of hours completing daily tasks like
tabular data processing and project timeline scheduling. Most of these tasks
are repetitive and error-prone, yet most end users lack the skill to automate
these burdensome works. With the advent of large language models (LLMs),
directing software with natural language user requests become a reachable goal.
In this work, we propose a SheetCopilot agent that takes natural language task
and control spreadsheet to fulfill the requirements. We propose a set of atomic
actions as an abstraction of spreadsheet software functionalities. We further
design a state machine-based task planning framework for LLMs to robustly
interact with spreadsheets. We curate a representative dataset containing 221
spreadsheet control tasks and establish a fully automated evaluation pipeline
for rigorously benchmarking the ability of LLMs in software control tasks. Our
SheetCopilot correctly completes 44.3\% of tasks for a single generation,
outperforming the strong code generation baseline by a wide margin. Our project
page:https://sheetcopilot.github.io/.
- Abstract(参考訳): コンピュータのエンドユーザーは、表データ処理やプロジェクトスケジュールスケジューリングといった日々のタスクを何十億時間も完了させてきた。
これらのタスクのほとんどは反復的でエラーを起こしやすいが、ほとんどのエンドユーザーはこうした面倒な作業を自動化するスキルが欠けている。
大規模言語モデル(LLM)の出現により、自然言語ユーザ要求によるソフトウェア指向が到達可能な目標となっている。
本研究では,自然言語処理とスプレッドシート制御を併用して要求を満たすシートコパイロットエージェントを提案する。
本稿では,スプレッドシートソフトウェア機能の抽象化として,アトミックアクションのセットを提案する。
我々はさらに、LLMがスプレッドシートと堅牢に対話するための状態マシンベースのタスク計画フレームワークを設計する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし、ソフトウェア制御タスクにおけるLLMの能力を厳格にベンチマークするための完全自動評価パイプラインを確立する。
当社の SheetCopilot は,単一世代のタスクの 44.3 % を正しく完了し,強力なコード生成ベースラインを広いマージンで上回っている。
プロジェクトページ:https://sheetcopilot.github.io/
関連論文リスト
- SheetAgent: A Generalist Agent for Spreadsheet Reasoning and
Manipulation via Large Language Models [42.66860424511231]
大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。
我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークである$textbfSheetRM$を紹介した。
さらに,LLMのパワーを利用した新しい自律エージェントであるtextbfSheetAgent$を提案する。
論文 参考訳(メタデータ) (2024-03-06T11:48:08Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist
Autonomous Agents for Desktop and Web [45.79408296386536]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - AutoScrum: Automating Project Planning Using Large Language Models [0.0]
大規模言語モデルは、高度な推論に言語モデルを使用することを可能にした。
本稿では、この能力を利用して、現在の状況と望ましい状態を知ることのみに基づいて、複雑なプロジェクト計画を設計する。
スクラムベースのアプローチとショートカットプランアプローチの2つのアプローチが実証されている。
論文 参考訳(メタデータ) (2023-06-05T19:16:37Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large
Language Models [27.318186938382233]
本研究では,大規模言語モデル(LLM)を具体化エージェントのプランナーとして用いることに焦点を当てた。
そこで本研究では,大規模言語モデルのパワーを活かして少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。
論文 参考訳(メタデータ) (2022-12-08T05:46:32Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。