論文の概要: A Tertiary Review of Large Language Model-Based Code Generating Tasks: Trends, Challenges, and Future Directions
- arxiv url: http://arxiv.org/abs/2605.25536v1
- Date: Mon, 25 May 2026 07:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.448412
- Title: A Tertiary Review of Large Language Model-Based Code Generating Tasks: Trends, Challenges, and Future Directions
- Title(参考訳): 大規模言語モデルベースコード生成タスクの第三部レビュー:最近の動向,課題,今後の方向性
- Authors: Muslim Chochlov, Michael English, Jim Buckley,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成タスク(CGT)にますます応用されている。
本研究は, LLMに基づくCGTに関する二次的証拠を整理し, 出版状況, 効果, シナリオ, 統合課題, 今後の研究方向性について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context. Large language models (LLMs) are increasingly applied to code-generating tasks (CGTs) in software engineering. While reported results are promising, the broader effects of such application and their integration into real-world development remain insufficiently understood with existing tertiary studies provide little in this area. Objective. This tertiary study consolidates secondary evidence on LLM-based CGTs, synthesizing the publication landscape, effects, scenarios, integration challenges, and future research directions. Method. Following systematic review guidelines, we searched in related digital libraries, complemented by backward-and-forward snowballing and screening step. Study quality was assessed and extraction reliability was audited with inter-rater agreement statistics. Evidence was synthesized using SWEBOK knowledge areas and the HELM framework. Results. We identify 30 secondary studies published between 2017-2025, with rapid growth since 2023. Accuracy seems strong on benchmarks but weakly supported for real-world generalization; robustness is fragile across tasks and configurations; efficiency constraints are pervasive; toxicity and bias are under-reported. Dominant challenges concern economic feasibility, evaluation validity, and socio-technical integration. Future directions suggest domain-aware model improvement and the need for holistic, standardized evaluation. Conclusion. LLM-based CGTs represent a fast-maturing yet unevenly evaluated research area, highlighting the need for domain-aware model improvements and holistic, standardized evaluation, addressing efficiency and associated costs.
- Abstract(参考訳): コンテキスト。
大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成タスク(CGT)にますます応用されている。
報告された結果が有望である一方で、これらの応用の広範な影響と実世界開発への統合は、まだ十分に理解されておらず、既存の第三次研究はこの領域ではほとんど役に立たない。
目的。
この第3次研究は、LCMに基づくCGTに関する二次的な証拠を集約し、出版環境、効果、シナリオ、統合課題、将来の研究方向性を合成する。
方法。
組織的なレビューガイドラインに従って,前後方向のスノーボールとスクリーニングのステップを補完する関連デジタルライブラリーを検索した。
調査品質を評価し, 抽出信頼性を, レイター間合意統計を用いて評価した。
SWEBOK知識領域とHELMフレームワークを用いてエビデンスを合成した。
結果。
2017年から2025年にかけて発行された30の二次研究では、2023年以来急速に成長している。
ベンチマークでは正確さは強いように見えるが、現実の一般化では弱いサポートを受けており、タスクや構成において堅牢性は脆弱であり、効率の制約は広く、毒性やバイアスは報告されていない。
支配的な課題は、経済の実現可能性、評価の妥当性、社会技術の統合である。
将来的な方向性は、ドメイン認識モデルの改善と、全体的、標準化された評価の必要性を示唆する。
結論。
LLMベースのCGTは、高速に適合するが不均一に評価された研究領域を表しており、ドメイン認識モデルの改善と全体的、標準化された評価、対処効率と関連するコストの必要性を強調している。
関連論文リスト
- LLM-Assisted Empirical Software Engineering: Systematic Literature Review and Research Agenda [11.530621491409015]
経験的ソフトウェアエンジニアリング(ESE)は、データスケール、方法論的複雑さ、関心事による課題の増加に直面します。
大きな言語モデル(LLM)は経験的をサポートするための有望なツールとして登場したが、それでもその使用は断片化されている。
本研究では,ESEにおけるLCMの使用状況,サポート対象タスクの検証,リポジトリへの統合,報告されたメリットと制限,報告範囲について分析する。
論文 参考訳(メタデータ) (2026-04-29T00:34:39Z) - Fairness in Multi-Agent Systems for Software Engineering: An SDLC-Oriented Rapid Review [3.0969191504482243]
トランスフォーマーベースの大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ソフトウェア開発ライフサイクル (SDLC) 全体にますます浸透している。
我々は,MASにおける公平性に関する最近の研究を迅速にレビューし,LLM対応の設定とソフトウェア工学との関連性を強調した。
論文 参考訳(メタデータ) (2026-04-10T13:49:49Z) - Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead [15.43943391801509]
単体テストは、ソフトウェアの検証には不可欠だが、面倒なテクニックである。
大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。
このフレームワークは、コアジェネレーティブ戦略と一連の拡張テクニックに関する文献を分析します。
論文 参考訳(メタデータ) (2025-11-26T13:30:11Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [82.0813150432867]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、13のアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Tracking the Moving Target: A Framework for Continuous Evaluation of LLM Test Generation in Industry [0.5735035463793009]
大きな言語モデル(LLM)は、テスト生成を含むソフトウェアテストタスクを自動化する大きな可能性を示しています。
彼らの急速な進化は、DevSecOpsを実装する企業にとって重要な課題である。
本研究は,産業環境下での商業LLMテストジェネレータの連続評価のための測定フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-26T18:08:13Z) - Towards Efficient Educational Chatbots: Benchmarking RAG Frameworks [2.362412515574206]
大規模言語モデル(LLM)は、大量の文献に基づく情報を収集することで、教育において非常に有益であることが証明されている。
本稿では,LLMを活用してGATEソリューションを説明し,学生の試験準備を支援するAIを活用した質問応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T08:11:07Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。