Fugu-MT 論文翻訳(概要): SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models

論文の概要: SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models

arxiv url: http://arxiv.org/abs/2305.19308v2
Date: Mon, 30 Oct 2023 06:36:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 23:50:35.779644
Title: SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models
Title（参考訳）: sheetcopilot: 大規模言語モデルによるソフトウェア生産性の次のレベルへ
Authors: Hongxin Li, Jingran Su, Yuntao Chen, Qing Li, Zhaoxiang Zhang
Abstract要約: 本研究では,スプレッドシートの要求を満たすために自然言語処理と制御を行うスプレッドシートコパイロットエージェントを提案する。 221のスプレッドシート制御タスクを含む代表データセットをキュレートし,完全自動評価パイプラインを構築した。当社の SheetCopilot は1世代で44.3% のタスクを正しく完了し、強力なコード生成ベースラインを広いマージンで上回っている。
参考スコア（独自算出の注目度）: 60.171444066848856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computer end users have spent billions of hours completing daily tasks like tabular data processing and project timeline scheduling. Most of these tasks are repetitive and error-prone, yet most end users lack the skill to automate these burdensome works. With the advent of large language models (LLMs), directing software with natural language user requests become a reachable goal. In this work, we propose a SheetCopilot agent that takes natural language task and control spreadsheet to fulfill the requirements. We propose a set of atomic actions as an abstraction of spreadsheet software functionalities. We further design a state machine-based task planning framework for LLMs to robustly interact with spreadsheets. We curate a representative dataset containing 221 spreadsheet control tasks and establish a fully automated evaluation pipeline for rigorously benchmarking the ability of LLMs in software control tasks. Our SheetCopilot correctly completes 44.3\% of tasks for a single generation, outperforming the strong code generation baseline by a wide margin. Our project page:https://sheetcopilot.github.io/.
Abstract（参考訳）: コンピュータのエンドユーザーは、表データ処理やプロジェクトスケジュールスケジューリングといった日々のタスクを何十億時間も完了させてきた。これらのタスクのほとんどは反復的でエラーを起こしやすいが、ほとんどのエンドユーザーはこうした面倒な作業を自動化するスキルが欠けている。大規模言語モデル(LLM)の出現により、自然言語ユーザ要求によるソフトウェア指向が到達可能な目標となっている。本研究では,自然言語処理とスプレッドシート制御を併用して要求を満たすシートコパイロットエージェントを提案する。本稿では,スプレッドシートソフトウェア機能の抽象化として,アトミックアクションのセットを提案する。我々はさらに、LLMがスプレッドシートと堅牢に対話するための状態マシンベースのタスク計画フレームワークを設計する。 221のスプレッドシート制御タスクを含む代表データセットをキュレートし、ソフトウェア制御タスクにおけるLLMの能力を厳格にベンチマークするための完全自動評価パイプラインを確立する。当社の SheetCopilot は,単一世代のタスクの 44.3 % を正しく完了し,強力なコード生成ベースラインを広いマージンで上回っている。プロジェクトページ:https://sheetcopilot.github.io/

関連論文リスト

SODBench: A Large Language Model Approach to Documenting Spreadsheet Operations [1.3669571918482655]
本稿では,スプレッドシート操作から人間が読める説明を生成するAIタスクである,スプレッドシート操作文書(SOD)を紹介する。本稿では,111のスプレッドシート操作コードスニペットのベンチマークを,対応する自然言語要約と組み合わせて提示する。以上の結果から,LSMは正確なスプレッドシートドキュメンテーションを生成できる可能性が示唆された。
論文参考訳（メタデータ） (2025-10-22T01:36:13Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
TableTalk: Scaffolding Spreadsheet Development with a Language Agent [20.560984872689414]
TableTalkは、プログラマが会話でスプレッドシートを構築するのを助ける言語エージェントである。その設計は、スキャフォールディング、柔軟性、漸進性の3つの設計原則を再定義する。 20人のプログラマによるユーザ調査によると、TableTalkは2.3倍のスプレッドシートが好まれる傾向にある。
論文参考訳（メタデータ） (2025-02-13T21:43:51Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文参考訳（メタデータ） (2024-05-02T17:59:31Z)
m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks [31.031053149807857]
我々は、33のツールを含む4K以上のマルチステップマルチモーダルタスクを含むベンチマークであるm&m'sを紹介する。これら各タスククエリに対して、この現実的なツールセットを使用して自動生成されたプランを提供する。 1,565のタスクプランの高品質なサブセットを提供する。
論文参考訳（メタデータ） (2024-03-17T04:36:18Z)
SheetAgent: Towards A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [40.631127096231886]
大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークである$textbfSheetRM$を紹介した。さらに,LLMのパワーを利用した新しい自律エージェントであるtextbfSheetAgent$を提案する。
論文参考訳（メタデータ） (2024-03-06T11:48:08Z)
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文参考訳（メタデータ） (2024-02-27T14:47:53Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
AutoScrum: Automating Project Planning Using Large Language Models [0.0]
大規模言語モデルは、高度な推論に言語モデルを使用することを可能にした。本稿では、この能力を利用して、現在の状況と望ましい状態を知ることのみに基づいて、複雑なプロジェクト計画を設計する。スクラムベースのアプローチとショートカットプランアプローチの2つのアプローチが実証されている。
論文参考訳（メタデータ） (2023-06-05T19:16:37Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。