論文の概要: SheetAgent: A Generalist Agent for Spreadsheet Reasoning and
Manipulation via Large Language Models
- arxiv url: http://arxiv.org/abs/2403.03636v1
- Date: Wed, 6 Mar 2024 11:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:13:31.372976
- Title: SheetAgent: A Generalist Agent for Spreadsheet Reasoning and
Manipulation via Large Language Models
- Title(参考訳): SheetAgent: 大規模言語モデルによるスプレッドシート推論と操作のための汎用エージェント
- Authors: Yibin Chen, Yifu Yuan, Zeyu Zhang, Yan Zheng, Jinyi Liu, Fei Ni,
Jianye Hao
- Abstract要約: 大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。
我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークである$textbfSheetRM$を紹介した。
さらに,LLMのパワーを利用した新しい自律エージェントであるtextbfSheetAgent$を提案する。
- 参考スコア(独自算出の注目度): 42.66860424511231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spreadsheet manipulation is widely existing in most daily works and
significantly improves working efficiency. Large language model (LLM) has been
recently attempted for automatic spreadsheet manipulation but has not yet been
investigated in complicated and realistic tasks where reasoning challenges
exist (e.g., long horizon manipulation with multi-step reasoning and ambiguous
requirements). To bridge the gap with the real-world requirements, we introduce
$\textbf{SheetRM}$, a benchmark featuring long-horizon and multi-category tasks
with reasoning-dependent manipulation caused by real-life challenges. To
mitigate the above challenges, we further propose $\textbf{SheetAgent}$, a
novel autonomous agent that utilizes the power of LLMs. SheetAgent consists of
three collaborative modules: $\textit{Planner}$, $\textit{Informer}$, and
$\textit{Retriever}$, achieving both advanced reasoning and accurate
manipulation over spreadsheets without human interaction through iterative task
reasoning and reflection. Extensive experiments demonstrate that SheetAgent
delivers 20-30% pass rate improvements on multiple benchmarks over baselines,
achieving enhanced precision in spreadsheet manipulation and demonstrating
superior table reasoning abilities. More details and visualizations are
available at https://sheetagent.github.io.
- Abstract(参考訳): スプレッドシートの操作は多くの日常的な作業に広く存在し、作業効率を大幅に改善している。
大規模言語モデル(LLM)は、最近、自動スプレッドシート操作のために試みられているが、推論の課題が存在する複雑な現実的なタスク(例えば、多段階推論と曖昧な要求を含む長い水平操作)では、まだ研究されていない。
実世界の要件とのギャップを埋めるため, 実生活課題に起因する推論依存操作を伴う長期・多カテゴリタスクを特徴とするベンチマークである$\textbf{SheetRM}$を導入する。
上記の課題を軽減するため、我々はさらにllmsのパワーを利用する新しい自律エージェントである$\textbf{sheetagent}$を提案する。
SheetAgentは3つの協調モジュールで構成されている。 $\textit{Planner}$, $\textit{Informer}$, $\textit{Retriever}$。
広範な実験により、sheetagentはベースラインよりも複数のベンチマークで20-30%のパスレート改善を行い、スプレッドシート操作の精度を高め、優れたテーブル推論能力を示している。
詳細と可視化はhttps://sheetagent.github.io.com/で確認できる。
関連論文リスト
- TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Meta-Task Planning for Language Agents [13.550774629515843]
大規模言語モデルベースエージェント(LLMエージェント)は、人工知能(AGI)を実現するための有望なパラダイムとして登場した。
本稿では,メタタスク計画(Meta-Task Planning, MTP)を紹介する。
MTPはTravelPlannerで平均$sim40%$成功率を達成した。
論文 参考訳(メタデータ) (2024-05-26T10:33:17Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task
Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models [60.171444066848856]
本研究では,スプレッドシートの要求を満たすために自然言語処理と制御を行うスプレッドシートコパイロットエージェントを提案する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし,完全自動評価パイプラインを構築した。
当社の SheetCopilot は1世代で44.3% のタスクを正しく完了し、強力なコード生成ベースラインを広いマージンで上回っている。
論文 参考訳(メタデータ) (2023-05-30T17:59:30Z) - Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents [26.78244595330595]
「$underlineD$escribe」は、Large Language Models(LLMs)に基づく対話型計画手法である。
DEPSは、計画実行プロセスの$textitdescription$を統合することで、初期LLM生成の$textitplan$のエラー修正を容易にする。
実験は、70以上のMinecraftタスクを確実に達成できる最初のゼロショットマルチタスクエージェントのマイルストーンとなる。
論文 参考訳(メタデータ) (2023-02-03T06:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。