論文の概要: Designing Empirical Studies on LLM-Based Code Generation: Towards a Reference Framework
- arxiv url: http://arxiv.org/abs/2510.03862v1
- Date: Sat, 04 Oct 2025 16:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.303984
- Title: Designing Empirical Studies on LLM-Based Code Generation: Towards a Reference Framework
- Title(参考訳): LLMに基づくコード生成に関する実証的研究--参照フレームワークを目指して
- Authors: Nathalia Nascimento, Everton Guimaraes, Paulo Alencar,
- Abstract要約: 大規模言語モデル(LLM)に基づくコード生成に関する経験的研究を設計・報告するための理論的枠組みを提案する。
このフレームワークは、そのような実験を行ったこれまでの経験と、最近の研究における重要な類似点と相違点の比較分析の両方に基礎を置いている。
問題ソース、品質属性、メトリクスなどのコアコンポーネントに関する評価を組織化し、構造化および体系的な実験をサポートする。
- 参考スコア(独自算出の注目度): 0.3568466510804538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large language models (LLMs) has introduced transformative potential in automated code generation, addressing a wide range of software engineering challenges. However, empirical evaluation of LLM-based code generation lacks standardization, with studies varying widely in goals, tasks, and metrics, which limits comparability and reproducibility. In this paper, we propose a theoretical framework for designing and reporting empirical studies on LLM-based code generation. The framework is grounded in both our prior experience conducting such experiments and a comparative analysis of key similarities and differences among recent studies. It organizes evaluation around core components such as problem sources, quality attributes, and metrics, supporting structured and systematic experimentation. We demonstrate its applicability through representative case mappings and identify opportunities for refinement. Looking forward, we plan to evolve the framework into a more robust and mature tool for standardizing LLM evaluation across software engineering contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、さまざまなソフトウェアエンジニアリングの課題に対処する、自動コード生成の変革的ポテンシャルを導入している。
しかし、LLMベースのコード生成の実証的な評価には標準化が欠如しており、目標、タスク、メトリクスなど、互換性と再現性を制限する研究が広く行われている。
本稿では,LLMに基づくコード生成に関する経験的研究を設計・報告するための理論的枠組みを提案する。
このフレームワークは、そのような実験を行ったこれまでの経験と、最近の研究における重要な類似点と相違点の比較分析の両方に基礎を置いている。
問題ソース、品質属性、メトリクスなどのコアコンポーネントに関する評価を組織化し、構造化および体系的な実験をサポートする。
代表的なケースマッピングを通じて適用可能性を示し、改良の機会を特定する。
今後は、ソフトウェアエンジニアリングのコンテキストにまたがるLCM評価を標準化するための、より堅牢で成熟したツールとして、フレームワークを進化させる予定です。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Benchmarking and Studying the LLM-based Agent System in End-to-End Software Development [33.01897134024342]
エンドツーエンドソフトウェア開発のためのLLMベースの自律エージェントの開発は、ソフトウェア工学における重要なパラダイムシフトである。
この作業はコミュニティに、より現実的なベンチマーク、包括的な評価フレームワーク、そしてソフトウェア開発エージェントの現在の能力とコア課題に対する重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-11-06T05:10:04Z) - A Survey of Vibe Coding with Large Language Models [93.88284590533242]
視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。
変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。
この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2025-10-14T11:26:56Z) - ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios [23.549720214649476]
大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
論文 参考訳(メタデータ) (2025-07-27T15:20:19Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling [17.092510377905814]
マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
論文 参考訳(メタデータ) (2025-06-13T08:04:56Z) - BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Large Language Models for Code Generation: The Practitioners Perspective [4.946128083535776]
大きな言語モデル(LLM)は、自然言語のプロンプトからソースコードを生成することができるコーディングアシスタントとして登場した。
自然言語のプロンプトに基づいてコードを生成し,実行するための多モデル統合プラットフォームを提案し,開発する。
我々は4大陸11カ国から60人のソフトウェア実践者を対象に,各モデルのユーザビリティ,パフォーマンス,強み,限界を評価する調査を行った。
論文 参考訳(メタデータ) (2025-01-28T14:52:16Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - HumanEvo: An Evolution-aware Benchmark for More Realistic Evaluation of Repository-level Code Generation [36.1669124651617]
我々は,大規模言語モデルのコード生成性能を,ソフトウェア開発の進化的性質を反映した設定内で理解するための実証的研究を行う。
我々は、自動実行ベースの評価ツールを備えた進化型リポジトリレベルのコード生成データセットであるHumanEvoを使用します。
従来の進化を無視した評価手法は, 10.0%から61.1%の範囲で, LLMの膨張性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-06-11T03:19:18Z) - Generative transformations and patterns in LLM-native approaches for software verification and falsification [1.4595796095047369]
より規律のあるエンジニアリングプラクティスに向けた基本的なステップは、コア機能単位生成変換の体系的な理解である、と我々は主張する。
まず、素早い相互作用を概念的シグネチャに抽象化する、生成変換のきめ細かい分類法を提案する。
我々の分析は分類学の有用性を検証するだけでなく、戦略的ギャップや相互関係も明らかにする。
論文 参考訳(メタデータ) (2024-04-14T23:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。