論文の概要: Benchmark Dataset Generation and Evaluation for Excel Formula Repair with LLMs
- arxiv url: http://arxiv.org/abs/2508.11715v1
- Date: Thu, 14 Aug 2025 16:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.296921
- Title: Benchmark Dataset Generation and Evaluation for Excel Formula Repair with LLMs
- Title(参考訳): LLMを用いたExcelフォーミュラのベンチマークデータセット生成と評価
- Authors: Ananya Singha, Harshita Sahijwani, Walt Williams, Emmanuel Aboah Boateng, Nick Hausman, Miguel Di Luca, Keegan Choudhury, Chaya Binet, Vu Le, Tianwei Chen, Oryan Rokeah Chen, Sulaiman Vesal, Sadid Hasan,
- Abstract要約: 大型言語モデル(LLM)は、公式エラーを説明することで有望な支援を提供する。
本稿では,Excel 公式の補修に特化して設計されたベンチマークデータセットを構築するための新しい手法を提案する。
我々のパイプラインはLLMと数発のプロンプトを統合し、堅牢なtextitLLM-as-a-Judgeバリデーションフレームワークを採用している。
- 参考スコア(独自算出の注目度): 3.4697197968922566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Excel is a pervasive yet often complex tool, particularly for novice users, where runtime errors arising from logical mistakes or misinterpretations of functions pose a significant challenge. While large language models (LLMs) offer promising assistance by explaining formula errors, the automated correction of these semantic runtime errors remains an open problem. A primary challenge to advancing models for such scenarios is the severe lack of high-quality, comprehensive datasets for training and rigorous evaluation. This paper addresses this gap by introducing a novel approach for constructing a benchmark dataset specifically designed for Excel formula repair. We propose a data generation pipeline, which leverages a small set of curated seed samples from online forums to synthetically expand the dataset. Our pipeline integrates few-shot prompting with LLMs and employs a robust \textit{LLM-as-a-Judge} validation framework, combined with execution-based checks to ensure the correctness and semantic fidelity of the generated data. This process produced a benchmark dataset of 618 high-quality samples, covering common runtime errors. Furthermore, we propose a context-aware baseline technique for Excel formula repair that utilizes LLMs to leverage both the faulty formula, and relevant spreadsheet context. We evaluate the performance of various LLMs (GPT-4o, GPT-4.1, Phi-3, Mistral) on our newly generated benchmark using execution-based metrics. Our analysis demonstrates the dataset's quality through manual annotation and provides insights into error and function distributions. The proposed generation methodology is highly scalable and can be readily adapted to create evaluation benchmarks for similar code repair tasks in other low-resource programming languages.
- Abstract(参考訳): Excelは広く普及するが、特に初心者にとっては複雑なツールであり、論理的なミスや関数の誤解釈に起因する実行時のエラーが大きな課題となる。
大きな言語モデル(LLM)は公式エラーを説明することで有望な支援を提供するが、これらのセマンティックランタイムエラーの自動修正は未解決の問題である。
このようなシナリオのモデルを進める上での大きな課題は、トレーニングと厳格な評価のための高品質で包括的なデータセットの欠如である。
本稿では,Excel 公式の補修に特化して設計されたベンチマークデータセットを構築するための新しいアプローチを導入することで,このギャップに対処する。
オンラインフォーラムから収集した少量のシードサンプルを利用して、データセットを合成的に拡張するデータ生成パイプラインを提案する。
我々のパイプラインはLLMと数発のプロンプトを統合し、ロバストな \textit{LLM-as-a-Judge} バリデーションフレームワークと実行ベースのチェックを組み合わせて、生成されたデータの正確性とセマンティック忠実性を保証する。
このプロセスは618の高品質なサンプルのベンチマークデータセットを生成し、一般的なランタイムエラーをカバーした。
さらに,LLMを用いたExcel式修復におけるコンテキスト認識ベースライン手法を提案する。
我々は,実行基準を用いて,新たに作成したベンチマーク上での各種LLM(GPT-4o,GPT-4.1,Phi-3,Mistral)の性能評価を行った。
分析では,手動のアノテーションによってデータセットの品質を実証し,エラーや関数の分布に関する洞察を提供する。
提案手法は高度にスケーラブルであり、他の低リソースプログラミング言語で同様のコード修復タスクの評価ベンチマークを作成するために容易に適用できる。
関連論文リスト
- Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models [15.985949745494747]
TableEGは、大規模な言語モデルを利用して、真のエラーを生成するフレームワークである。
10の異なるドメインにまたがる12の現実世界のデータセットをトレーニングしました。
TableEGは、合成エラーと実世界のエラーのギャップを埋めるだけでなく、その後のエラー検出と修正タスクの堅牢なベンチマークも確立している。
論文 参考訳(メタデータ) (2025-07-15T02:58:25Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。
実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data [0.0]
本稿では,Large Language Models(LLMs)を用いた合成データ生成によるAPR(Automated Program repair)の向上手法を提案する。
提案手法は, 合成試料生成と厳密な品質評価という2段階のプロセスを通じて, この制限に対処する。
VulRepairテストセットデータセットの実験評価では、完全予測率の統計的に有意な改善が見られた。
論文 参考訳(メタデータ) (2025-05-12T09:14:20Z) - Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets [19.844836459291546]
高品質でエラーのないデータセットは、信頼性、正確、偏見のない機械学習(ML)モデルを構築する上で重要な要素である。
しかし、実世界のデータセットは、センサーの故障、データ入力ミス、複数のソースにわたる不適切なデータ統合によるエラーに悩まされることが多い。
本研究では,Large Language Models (LLMs) が手作業によるデータクリーニングの負担軽減に有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-03-09T15:29:46Z) - Addressing Data Leakage in HumanEval Using Combinatorial Test Design [1.9336815376402723]
HumanEvalベンチマークは164の手作りタスクで構成されている。
HumanEvalのようなベンチマークを用いたLCMの公正な評価に対する大きな障壁は、データ汚染である。
本稿では,新しい具体的なタスクにインスタンス化可能なテンプレートタスクからなるベンチマーク構築手法を提案する。
論文 参考訳(メタデータ) (2024-12-02T14:18:32Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。