論文の概要: SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation
- arxiv url: http://arxiv.org/abs/2406.14991v2
- Date: Thu, 17 Oct 2024 07:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:17:28.531235
- Title: SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation
- Title(参考訳): SpreadsheetBench: リアルワールドのスプレッドシート操作に挑戦
- Authors: Zeyao Ma, Bohan Zhang, Jing Zhang, Jifan Yu, Xiaokang Zhang, Xiaohan Zhang, Sijia Luo, Xi Wang, Jie Tang,
- Abstract要約: SpreadsheetBenchは,現在の大規模言語モデル(LLM)を,スプレッドシートユーザのワークフローにマージするように設計されている。
合成クエリと単純化されたスプレッドシートファイルに依存する既存のベンチマークとは異なり、SpreadsheetBenchはオンラインExcelフォーラムから収集された912の質問から作られている。
単一ラウンドおよび複数ラウンドの推論条件下での各種LLMの総合評価は,最先端モデル(SOTA)と人為的性能との間に大きなギャップがあることを示唆している。
- 参考スコア(独自算出の注目度): 34.8332394229927
- License:
- Abstract: We introduce SpreadsheetBench, a challenging spreadsheet manipulation benchmark exclusively derived from real-world scenarios, designed to immerse current large language models (LLMs) in the actual workflow of spreadsheet users. Unlike existing benchmarks that rely on synthesized queries and simplified spreadsheet files, SpreadsheetBench is built from 912 real questions gathered from online Excel forums, which reflect the intricate needs of users. The associated spreadsheets from the forums contain a variety of tabular data such as multiple tables, non-standard relational tables, and abundant non-textual elements. Furthermore, we propose a more reliable evaluation metric akin to online judge platforms, where multiple spreadsheet files are created as test cases for each instruction, ensuring the evaluation of robust solutions capable of handling spreadsheets with varying values. Our comprehensive evaluation of various LLMs under both single-round and multi-round inference settings reveals a substantial gap between the state-of-the-art (SOTA) models and human performance, highlighting the benchmark's difficulty.
- Abstract(参考訳): 本研究では,既存の大規模言語モデル(LLM)を,実際のスプレッドシートユーザのワークフローにマージするように設計された,現実シナリオから排他的に派生した,挑戦的なスプレッドシート操作ベンチマークであるSpreadsheetBenchを紹介する。
合成クエリと単純化されたスプレッドシートファイルに依存する既存のベンチマークとは異なり、SpreadsheetBenchはオンラインExcelフォーラムから収集された912の質問から構築されている。
フォーラムからの関連するスプレッドシートには、複数のテーブル、非標準リレーショナルテーブル、豊富な非テキスト要素など、さまざまな表データが含まれている。
さらに,オンライン判定プラットフォームに類似した信頼性の高い評価基準を提案し,複数のスプレッドシートファイルを各命令のテストケースとして作成し,異なる値でスプレッドシートを処理できる堅牢なソリューションの評価を確実にする。
単一ラウンドおよび複数ラウンドの推論条件下での様々なLCMの総合評価は、最新技術(SOTA)モデルと人為的性能の間に大きなギャップを生じさせ、ベンチマークの難しさを浮き彫りにしている。
関連論文リスト
- SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.08092362611575]
SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。
LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。
SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
論文 参考訳(メタデータ) (2024-07-12T06:34:21Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Auto-Formula: Recommend Formulas in Spreadsheets using Contrastive Learning for Table Representations [36.2969566996675]
我々は,ユーザがターゲットのスプレッドシートセルで書きたい公式を正確に予測するオートフォーミュラシステムを開発した。
コンピュータビジョンの「類似顔認識」にインスパイアされたコントラスト学習技術を用いている。
論文 参考訳(メタデータ) (2024-04-19T03:28:18Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。