論文の概要: SheetAgent: A Generalist Agent for Spreadsheet Reasoning and
Manipulation via Large Language Models
- arxiv url: http://arxiv.org/abs/2403.03636v1
- Date: Wed, 6 Mar 2024 11:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:13:31.372976
- Title: SheetAgent: A Generalist Agent for Spreadsheet Reasoning and
Manipulation via Large Language Models
- Title(参考訳): SheetAgent: 大規模言語モデルによるスプレッドシート推論と操作のための汎用エージェント
- Authors: Yibin Chen, Yifu Yuan, Zeyu Zhang, Yan Zheng, Jinyi Liu, Fei Ni,
Jianye Hao
- Abstract要約: 大規模言語モデル (LLM) は近年, スプレッドシートの自動操作のために試みられているが, 現実的なタスクではまだ研究されていない。
我々は、推論に依存した操作を伴う長い水平および複数カテゴリのタスクを特徴付けるベンチマークである$textbfSheetRM$を紹介した。
さらに,LLMのパワーを利用した新しい自律エージェントであるtextbfSheetAgent$を提案する。
- 参考スコア(独自算出の注目度): 42.66860424511231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spreadsheet manipulation is widely existing in most daily works and
significantly improves working efficiency. Large language model (LLM) has been
recently attempted for automatic spreadsheet manipulation but has not yet been
investigated in complicated and realistic tasks where reasoning challenges
exist (e.g., long horizon manipulation with multi-step reasoning and ambiguous
requirements). To bridge the gap with the real-world requirements, we introduce
$\textbf{SheetRM}$, a benchmark featuring long-horizon and multi-category tasks
with reasoning-dependent manipulation caused by real-life challenges. To
mitigate the above challenges, we further propose $\textbf{SheetAgent}$, a
novel autonomous agent that utilizes the power of LLMs. SheetAgent consists of
three collaborative modules: $\textit{Planner}$, $\textit{Informer}$, and
$\textit{Retriever}$, achieving both advanced reasoning and accurate
manipulation over spreadsheets without human interaction through iterative task
reasoning and reflection. Extensive experiments demonstrate that SheetAgent
delivers 20-30% pass rate improvements on multiple benchmarks over baselines,
achieving enhanced precision in spreadsheet manipulation and demonstrating
superior table reasoning abilities. More details and visualizations are
available at https://sheetagent.github.io.
- Abstract(参考訳): スプレッドシートの操作は多くの日常的な作業に広く存在し、作業効率を大幅に改善している。
大規模言語モデル(LLM)は、最近、自動スプレッドシート操作のために試みられているが、推論の課題が存在する複雑な現実的なタスク(例えば、多段階推論と曖昧な要求を含む長い水平操作)では、まだ研究されていない。
実世界の要件とのギャップを埋めるため, 実生活課題に起因する推論依存操作を伴う長期・多カテゴリタスクを特徴とするベンチマークである$\textbf{SheetRM}$を導入する。
上記の課題を軽減するため、我々はさらにllmsのパワーを利用する新しい自律エージェントである$\textbf{sheetagent}$を提案する。
SheetAgentは3つの協調モジュールで構成されている。 $\textit{Planner}$, $\textit{Informer}$, $\textit{Retriever}$。
広範な実験により、sheetagentはベースラインよりも複数のベンチマークで20-30%のパスレート改善を行い、スプレッドシート操作の精度を高め、優れたテーブル推論能力を示している。
詳細と可視化はhttps://sheetagent.github.io.com/で確認できる。
関連論文リスト
- HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - EHRAgent: Code Empowers Large Language Models for Few-shot Complex
Tabular Reasoning on Electronic Health Records [48.9788858020623]
大規模言語モデル(LLM)は、計画とツールの利用において例外的な能力を示した。
コードインタフェースを備えたLLMエージェントであるEHRAgentを提案し,マルチタブラル推論のためのコードの自動生成と実行を行う。
論文 参考訳(メタデータ) (2024-01-13T18:09:05Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z) - Towards Robust Multi-Modal Reasoning via Model Selection [8.37038849337004]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task
Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - SheetCopilot: Bringing Software Productivity to the Next Level through
Large Language Models [60.171444066848856]
本研究では,スプレッドシートの要求を満たすために自然言語処理と制御を行うスプレッドシートコパイロットエージェントを提案する。
221のスプレッドシート制御タスクを含む代表データセットをキュレートし,完全自動評価パイプラインを構築した。
当社の SheetCopilot は1世代で44.3% のタスクを正しく完了し、強力なコード生成ベースラインを広いマージンで上回っている。
論文 参考訳(メタデータ) (2023-05-30T17:59:30Z) - Describe, Explain, Plan and Select: Interactive Planning with Large
Language Models Enables Open-World Multi-Task Agents [28.37910346577588]
「$underlineD$escribe」は、Large Language Models(LLMs)に基づく対話型計画手法である。
DEPSは、計画実行プロセスの$textitdescription$を統合することで、初期LLM生成の$textitplan$のエラー修正を容易にする。
実験は、70以上のMinecraftタスクを確実に達成できる最初のゼロショットマルチタスクエージェントのマイルストーンとなる。
論文 参考訳(メタデータ) (2023-02-03T06:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。