Fugu-MT 論文翻訳(概要): SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation

論文の概要: SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation

arxiv url: http://arxiv.org/abs/2406.14991v2
Date: Thu, 17 Oct 2024 07:23:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.975615
Title: SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation
Title（参考訳）: SpreadsheetBench: リアルワールドのスプレッドシート操作に挑戦
Authors: Zeyao Ma, Bohan Zhang, Jing Zhang, Jifan Yu, Xiaokang Zhang, Xiaohan Zhang, Sijia Luo, Xi Wang, Jie Tang,
Abstract要約: SpreadsheetBenchは,現在の大規模言語モデル(LLM)を,スプレッドシートユーザのワークフローにマージするように設計されている。合成クエリと単純化されたスプレッドシートファイルに依存する既存のベンチマークとは異なり、SpreadsheetBenchはオンラインExcelフォーラムから収集された912の質問から作られている。単一ラウンドおよび複数ラウンドの推論条件下での各種LLMの総合評価は,最先端モデル(SOTA)と人為的性能との間に大きなギャップがあることを示唆している。
参考スコア（独自算出の注目度）: 34.8332394229927
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce SpreadsheetBench, a challenging spreadsheet manipulation benchmark exclusively derived from real-world scenarios, designed to immerse current large language models (LLMs) in the actual workflow of spreadsheet users. Unlike existing benchmarks that rely on synthesized queries and simplified spreadsheet files, SpreadsheetBench is built from 912 real questions gathered from online Excel forums, which reflect the intricate needs of users. The associated spreadsheets from the forums contain a variety of tabular data such as multiple tables, non-standard relational tables, and abundant non-textual elements. Furthermore, we propose a more reliable evaluation metric akin to online judge platforms, where multiple spreadsheet files are created as test cases for each instruction, ensuring the evaluation of robust solutions capable of handling spreadsheets with varying values. Our comprehensive evaluation of various LLMs under both single-round and multi-round inference settings reveals a substantial gap between the state-of-the-art (SOTA) models and human performance, highlighting the benchmark's difficulty.
Abstract（参考訳）: 本研究では,既存の大規模言語モデル(LLM)を,実際のスプレッドシートユーザのワークフローにマージするように設計された,現実シナリオから排他的に派生した,挑戦的なスプレッドシート操作ベンチマークであるSpreadsheetBenchを紹介する。合成クエリと単純化されたスプレッドシートファイルに依存する既存のベンチマークとは異なり、SpreadsheetBenchはオンラインExcelフォーラムから収集された912の質問から構築されている。フォーラムからの関連するスプレッドシートには、複数のテーブル、非標準リレーショナルテーブル、豊富な非テキスト要素など、さまざまな表データが含まれている。さらに,オンライン判定プラットフォームに類似した信頼性の高い評価基準を提案し,複数のスプレッドシートファイルを各命令のテストケースとして作成し,異なる値でスプレッドシートを処理できる堅牢なソリューションの評価を確実にする。単一ラウンドおよび複数ラウンドの推論条件下での様々なLCMの総合評価は、最新技術(SOTA)モデルと人為的性能の間に大きなギャップを生じさせ、ベンチマークの難しさを浮き彫りにしている。

関連論文リスト

SheetBrain: A Neuro-Symbolic Agent for Accurate Reasoning over Complex and Large Spreadsheets [37.47629183214491]
SheetBrainは、スプレッドシート上の推論のための神経シンボリックな二重エージェントフレームワークである。スプレッドシートの質問応答と操作タスクの両方をサポートする。 SheetBenchは、大規模で、マルチテーブルで、構造的に複雑なスプレッドシートをターゲットにした、新しいベンチマークである。
論文参考訳（メタデータ） (2025-10-22T05:09:44Z)
SheetDesigner: MLLM-Powered Spreadsheet Layout Generation with Rule-Based and Vision-Based Reflection [26.315814679351988]
SheetDesignerは、コンポーネント配置とコンテンツ人口に対するルールとビジョンの反映を組み合わせたゼロショットフレームワークである。視覚のモダリティによって、MLLMは重なり合いとバランスをうまく扱うが、アライメントに苦しむ。
論文参考訳（メタデータ） (2025-09-09T07:51:38Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
Large Language Models for Spreadsheets: Benchmarking Progress and Evaluating Performance with FLARE [0.0]
大規模言語モデル(LLM)は、様々な領域にまたがるいくつかの重要な機能を示している。本研究では,スプレッドシート機能の実行において,LLMをリードする性能を評価するためのベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-19T03:47:38Z)
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models [44.08092362611575]
SpreadsheetLLMは、スプレッドシート上の大きな言語モデル(LLM)を解き放つために設計された効率的な符号化手法である。 LLMのスプレッドシートを効果的に圧縮する革新的な符号化フレームワークである SheetCompressor を開発した。 SheetCompressor による微調整 LLM の圧縮率は平均 25 倍であるが、最先端の 78.9% の F1 スコアを達成し、既存のモデルでは 12.3% を上回っている。
論文参考訳（メタデータ） (2024-07-12T06:34:21Z)
QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文参考訳（メタデータ） (2024-05-08T15:05:55Z)
Auto-Formula: Recommend Formulas in Spreadsheets using Contrastive Learning for Table Representations [36.2969566996675]
我々は,ユーザがターゲットのスプレッドシートセルで書きたい公式を正確に予測するオートフォーミュラシステムを開発した。コンピュータビジョンの「類似顔認識」にインスパイアされたコントラスト学習技術を用いている。
論文参考訳（メタデータ） (2024-04-19T03:28:18Z)
TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。 TableLLMはデータ操作タスクを巧みに扱うために構築されている。我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文参考訳（メタデータ） (2024-03-28T11:21:12Z)
SheetAgent: Towards A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [45.930510174309845]
大規模言語モデル(LLM)は,最近,スプレッドシートの自動操作のために試みられている。 SheetAgentはPlanner、Informer、Retrieverの3つの共同モジュールで構成されている。 SheetAgentはベースラインよりも複数のベンチマークで20～40%のパスレート改善を実現している。
論文参考訳（メタデータ） (2024-03-06T11:48:08Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文参考訳（メタデータ） (2021-06-26T11:26:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。