論文の概要: SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks
- arxiv url: http://arxiv.org/abs/2603.10002v1
- Date: Mon, 16 Feb 2026 14:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.550931
- Title: SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks
- Title(参考訳): SpreadsheetArena: スプレッドシートワークブックのLLM生成における優先度の分解
- Authors: Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling,
- Abstract要約: 大規模言語モデル (LLM) は、構造化されたアーティファクトの生成と操作のタスクが増えている。
タスク上でモデルのパフォーマンスを評価するプラットフォームであるSpreadsheetArenaを紹介する。
好みのスプレッドシートのスタイラス的,構造的,機能的特徴はユースケースによって大きく異なる。
- 参考スコア(独自算出の注目度): 8.306042091008957
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly tasked with producing and manipulating structured artifacts. We consider the task of end-to-end spreadsheet generation, where language models are prompted to produce spreadsheet artifacts to satisfy users' explicit and implicit constraints, specified in natural language. We introduce SpreadsheetArena, a platform for evaluating models' performance on the task via blind pairwise evaluations of LLM-generated spreadsheet workbooks. As with other complex, open-ended tasks, relevant evaluation criteria can vary substantially across use cases and prompts, often in ways that are difficult to formalize. Compared to general chat or text generation settings, spreadsheet generation presents unique challenges and opportunities: the task output structure is well-defined and multi-dimensional, and there are often complex considerations around interactivity and layout. Among other findings, we observe that stylistic, structural, and functional features of preferred spreadsheets vary substantially across use cases, and expert evaluations of spreadsheets for finance prompts suggests that even highly ranked arena models do not reliably produce spreadsheets aligned with domain-specific best practices. Our hope is that our work prompts further study of end-to-end spreadsheet generation as a challenging and interesting category of complex, open-ended tasks for LLMs. Our live arena is hosted at https://spreadsheetarena.ai.
- Abstract(参考訳): 大規模言語モデル (LLM) は、構造化されたアーティファクトの生成と操作のタスクが増えている。
本稿では,自然言語で規定されるユーザの明示的かつ暗黙的な制約を満たすために,言語モデルにスプレッドシートアーティファクトの生成を促すエンド・ツー・エンド・エンド・スプレッドシート生成の課題について考察する。
我々は,LLM生成したスプレッドシートワークブックの視覚的ペアワイズ評価により,タスク上でのモデルの性能を評価するプラットフォームであるSpreadsheetArenaを紹介する。
他の複雑でオープンなタスクと同様に、関連する評価基準はユースケースやプロンプトによって大きく異なる場合がある。
一般的なチャットやテキスト生成設定と比較して、スプレッドシートの生成には固有の課題と機会がある。
その他の知見の中で, 好みのスプレッドシートのスタイラス, 構造, 機能的特徴はユースケースによって大きく異なり, 財務プロンプトのためのスプレッドシートの専門家評価からは, 高度にランク付けされたアリーナモデルでさえ, ドメイン固有のベストプラクティスに沿ったスプレッドシートを確実に生成していないことが示唆された。
我々の期待は、LLMの複雑でオープンなタスクの難易度の高いカテゴリとして、エンド・ツー・エンドのスプレッドシート生成のさらなる研究を促進することである。
私たちのライブアリーナはhttps://spreadsheetarena.ai.comでホストされています。
関連論文リスト
- SODBench: A Large Language Model Approach to Documenting Spreadsheet Operations [1.3669571918482655]
本稿では,スプレッドシート操作から人間が読める説明を生成するAIタスクである,スプレッドシート操作文書(SOD)を紹介する。
本稿では,111のスプレッドシート操作コードスニペットのベンチマークを,対応する自然言語要約と組み合わせて提示する。
以上の結果から,LSMは正確なスプレッドシートドキュメンテーションを生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-22T01:36:13Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Large Language Models for Spreadsheets: Benchmarking Progress and Evaluating Performance with FLARE [0.0]
大規模言語モデル(LLM)は、様々な領域にまたがるいくつかの重要な機能を示している。
本研究では,スプレッドシート機能の実行において,LLMをリードする性能を評価するためのベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-19T03:47:38Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation [34.8332394229927]
SpreadsheetBenchは,現在の大規模言語モデル(LLM)を,スプレッドシートユーザのワークフローにマージするように設計されている。
合成クエリと単純化されたスプレッドシートファイルに依存する既存のベンチマークとは異なり、SpreadsheetBenchはオンラインExcelフォーラムから収集された912の質問から作られている。
単一ラウンドおよび複数ラウンドの推論条件下での各種LLMの総合評価は,最先端モデル(SOTA)と人為的性能との間に大きなギャップがあることを示唆している。
論文 参考訳(メタデータ) (2024-06-21T09:06:45Z) - SheetAgent: Towards A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [45.930510174309845]
大規模言語モデル(LLM)は,最近,スプレッドシートの自動操作のために試みられている。
SheetAgentはPlanner、Informer、Retrieverの3つの共同モジュールで構成されている。
SheetAgentはベースラインよりも複数のベンチマークで20~40%のパスレート改善を実現している。
論文 参考訳(メタデータ) (2024-03-06T11:48:08Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。