論文の概要: Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreadsheet Code Generation: A Research Framework
- arxiv url: http://arxiv.org/abs/2510.15585v1
- Date: Fri, 17 Oct 2025 12:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.61577
- Title: Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreadsheet Code Generation: A Research Framework
- Title(参考訳): 信頼性と検証可能なスプレッドシートコード生成のための大規模言語モデルによるテスト駆動開発を活用する - 研究フレームワーク
- Authors: Dr Simon Thorne, Dr Advait Sarkar,
- Abstract要約: 本稿では、テスト駆動開発(TDD)の実証済みのソフトウェアエンジニアリングプラクティスとLLM(Large Language Model)による生成を統合する、構造化された研究フレームワークを提案する。
テスト駆動思考を強調することで、計算思考の改善、エンジニアリングスキルの促進、ユーザエンゲージメントの実現を目指す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT, are increasingly leveraged for generating both traditional software code and spreadsheet logic. Despite their impressive generative capabilities, these models frequently exhibit critical issues such as hallucinations, subtle logical inconsistencies, and syntactic errors, risks particularly acute in high stakes domains like financial modelling and scientific computations, where accuracy and reliability are paramount. This position paper proposes a structured research framework that integrates the proven software engineering practice of Test-Driven Development (TDD) with Large Language Model (LLM) driven generation to enhance the correctness of, reliability of, and user confidence in generated outputs. We hypothesise that a "test first" methodology provides both technical constraints and cognitive scaffolding, guiding LLM outputs towards more accurate, verifiable, and comprehensible solutions. Our framework, applicable across diverse programming contexts, from spreadsheet formula generation to scripting languages such as Python and strongly typed languages like Rust, includes an explicitly outlined experimental design with clearly defined participant groups, evaluation metrics, and illustrative TDD based prompting examples. By emphasising test driven thinking, we aim to improve computational thinking, prompt engineering skills, and user engagement, particularly benefiting spreadsheet users who often lack formal programming training yet face serious consequences from logical errors. We invite collaboration to refine and empirically evaluate this approach, ultimately aiming to establish responsible and reliable LLM integration in both educational and professional development practices.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、従来のソフトウェアコードとスプレッドシートロジックの両方を生成するためにますます活用されている。
その印象的な生成能力にもかかわらず、これらのモデルは幻覚、微妙な論理的不整合、統語的誤り、特に金融モデリングや科学的計算のような高利害な領域において、正確さと信頼性が最重要であるリスクなどの重要な問題をしばしば示している。
本稿では,テスト駆動開発(TDD)の実証済みソフトウェアエンジニアリングプラクティスをLLM(Large Language Model)駆動生成と統合して,生成した出力の正確性,信頼性,ユーザ信頼性を高めるための構造化された研究フレームワークを提案する。
我々は、"テストファースト"手法が技術的制約と認知的足場の両方を提供し、LCM出力をより正確で、検証可能で、理解可能なソリューションへと導くと仮定する。
私たちのフレームワークは、スプレッドシートの公式生成から、Pythonのようなスクリプト言語やRustのような強く型付けされた言語に至るまで、さまざまなプログラミングコンテキストに適用できます。
テスト駆動思考を強調することで、計算思考の改善、エンジニアリングスキルの向上、ユーザエンゲージメント、特にフォーマルなプログラミングトレーニングを欠いているスプレッドシートユーザにとって、論理的エラーによる深刻な結果に直面するメリットを享受することを目指している。
我々は、このアプローチを洗練・実証的に評価するために協力を招待し、究極的には、教育と専門的な開発プラクティスの両方において、責任と信頼性のあるLLM統合を確立することを目的としています。
関連論文リスト
- Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [78.1575956773948]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - On the Reliability and Explainability of Language Models for Program
Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文 参考訳(メタデータ) (2023-02-19T14:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。