論文の概要: Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreadsheet Code Generation: A Research Framework
- arxiv url: http://arxiv.org/abs/2510.15585v1
- Date: Fri, 17 Oct 2025 12:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.61577
- Title: Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreadsheet Code Generation: A Research Framework
- Title(参考訳): 信頼性と検証可能なスプレッドシートコード生成のための大規模言語モデルによるテスト駆動開発を活用する - 研究フレームワーク
- Authors: Dr Simon Thorne, Dr Advait Sarkar,
- Abstract要約: 本稿では、テスト駆動開発(TDD)の実証済みのソフトウェアエンジニアリングプラクティスとLLM(Large Language Model)による生成を統合する、構造化された研究フレームワークを提案する。
テスト駆動思考を強調することで、計算思考の改善、エンジニアリングスキルの促進、ユーザエンゲージメントの実現を目指す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT, are increasingly leveraged for generating both traditional software code and spreadsheet logic. Despite their impressive generative capabilities, these models frequently exhibit critical issues such as hallucinations, subtle logical inconsistencies, and syntactic errors, risks particularly acute in high stakes domains like financial modelling and scientific computations, where accuracy and reliability are paramount. This position paper proposes a structured research framework that integrates the proven software engineering practice of Test-Driven Development (TDD) with Large Language Model (LLM) driven generation to enhance the correctness of, reliability of, and user confidence in generated outputs. We hypothesise that a "test first" methodology provides both technical constraints and cognitive scaffolding, guiding LLM outputs towards more accurate, verifiable, and comprehensible solutions. Our framework, applicable across diverse programming contexts, from spreadsheet formula generation to scripting languages such as Python and strongly typed languages like Rust, includes an explicitly outlined experimental design with clearly defined participant groups, evaluation metrics, and illustrative TDD based prompting examples. By emphasising test driven thinking, we aim to improve computational thinking, prompt engineering skills, and user engagement, particularly benefiting spreadsheet users who often lack formal programming training yet face serious consequences from logical errors. We invite collaboration to refine and empirically evaluate this approach, ultimately aiming to establish responsible and reliable LLM integration in both educational and professional development practices.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、従来のソフトウェアコードとスプレッドシートロジックの両方を生成するためにますます活用されている。
その印象的な生成能力にもかかわらず、これらのモデルは幻覚、微妙な論理的不整合、統語的誤り、特に金融モデリングや科学的計算のような高利害な領域において、正確さと信頼性が最重要であるリスクなどの重要な問題をしばしば示している。
本稿では,テスト駆動開発(TDD)の実証済みソフトウェアエンジニアリングプラクティスをLLM(Large Language Model)駆動生成と統合して,生成した出力の正確性,信頼性,ユーザ信頼性を高めるための構造化された研究フレームワークを提案する。
我々は、"テストファースト"手法が技術的制約と認知的足場の両方を提供し、LCM出力をより正確で、検証可能で、理解可能なソリューションへと導くと仮定する。
私たちのフレームワークは、スプレッドシートの公式生成から、Pythonのようなスクリプト言語やRustのような強く型付けされた言語に至るまで、さまざまなプログラミングコンテキストに適用できます。
テスト駆動思考を強調することで、計算思考の改善、エンジニアリングスキルの向上、ユーザエンゲージメント、特にフォーマルなプログラミングトレーニングを欠いているスプレッドシートユーザにとって、論理的エラーによる深刻な結果に直面するメリットを享受することを目指している。
我々は、このアプローチを洗練・実証的に評価するために協力を招待し、究極的には、教育と専門的な開発プラクティスの両方において、責任と信頼性のあるLLM統合を確立することを目的としています。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - Code Fingerprints: Disentangled Attribution of LLM-Generated Code [7.515488307576106]
生成したコードに責任を負うソースLLMを決定することを目的とした,モデルレベルのコード属性の問題について検討する。
本稿では、ソース非依存のセマンティック情報とソース-特異なスタイル表現を分離するDisentangled Code Attribution Network (DCAN)を提案する。
4つのプログラミング言語で広く使われている4つの大規模言語モデル(LLM)が生成するコードからなる,最初の大規模ベンチマークデータセットを構築した。
論文 参考訳(メタデータ) (2026-03-04T15:58:36Z) - Holistic Evaluation of State-of-the-Art LLMs for Code Generation [5.504955093712013]
DeepSeek-R1 と GPT-4.1 は、正確性、効率、堅牢性という点で他より一貫して優れている。
構文エラーや論理的欠陥,最適化アルゴリズムといった,一般的な障害シナリオを特定します。
論文 参考訳(メタデータ) (2025-12-19T23:29:05Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - On Integrating Large Language Models and Scenario-Based Programming for Improving Software Reliability [2.2058293096044586]
大規模言語モデル(LLM)は、ソフトウェア開発者にとって急速に欠かせないツールになりつつある。
LLMは、しばしば重大なエラーを導入し、説得力のある信頼を持って間違ったコードを提示する。
本研究では,LLMと従来のソフトウェア工学技術を組み合わせる手法を構造化された方法で提案する。
論文 参考訳(メタデータ) (2025-09-11T07:10:25Z) - Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [78.1575956773948]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - Large Language Models for Code Generation: The Practitioners Perspective [4.946128083535776]
大きな言語モデル(LLM)は、自然言語のプロンプトからソースコードを生成することができるコーディングアシスタントとして登場した。
自然言語のプロンプトに基づいてコードを生成し,実行するための多モデル統合プラットフォームを提案し,開発する。
我々は4大陸11カ国から60人のソフトウェア実践者を対象に,各モデルのユーザビリティ,パフォーマンス,強み,限界を評価する調査を行った。
論文 参考訳(メタデータ) (2025-01-28T14:52:16Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - On the Reliability and Explainability of Language Models for Program
Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文 参考訳(メタデータ) (2023-02-19T14:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。