論文の概要: A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends
- arxiv url: http://arxiv.org/abs/2311.10372v1
- Date: Fri, 17 Nov 2023 07:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 15:20:39.541922
- Title: A Survey of Large Language Models for Code: Evolution, Benchmarking, and
Future Trends
- Title(参考訳): コードのための大規模言語モデルに関する調査:進化、ベンチマークおよび今後のトレンド
- Authors: Zibin Zheng and Kaiwen Ning and Yanlin Wang and Jingwen Zhang and Dewu
Zheng and Mingxi Ye and Jiachi Chen
- Abstract要約: 一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を証明している。
コードLLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
- 参考スコア(独自算出の注目度): 30.774685501251817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General large language models (LLMs), represented by ChatGPT, have
demonstrated significant potential in tasks such as code generation in software
engineering. This has led to the development of specialized LLMs for software
engineering, known as Code LLMs. A considerable portion of Code LLMs is derived
from general LLMs through model fine-tuning. As a result, Code LLMs are often
updated frequently and their performance can be influenced by the base LLMs.
However, there is currently a lack of systematic investigation into Code LLMs
and their performance. In this study, we conduct a comprehensive survey and
analysis of the types of Code LLMs and their differences in performance
compared to general LLMs. We aim to address three questions: (1) What LLMs are
specifically designed for software engineering tasks, and what is the
relationship between these Code LLMs? (2) Do Code LLMs really outperform
general LLMs in software engineering tasks? (3) Which LLMs are more proficient
in different software engineering tasks? To answer these questions, we first
collect relevant literature and work from five major databases and open-source
communities, resulting in 134 works for analysis. Next, we categorize the Code
LLMs based on their publishers and examine their relationships with general
LLMs and among themselves. Furthermore, we investigate the performance
differences between general LLMs and Code LLMs in various software engineering
tasks to demonstrate the impact of base models and Code LLMs. Finally, we
comprehensively maintained the performance of LLMs across multiple mainstream
benchmarks to identify the best-performing LLMs for each software engineering
task. Our research not only assists developers of Code LLMs in choosing base
models for the development of more advanced LLMs but also provides insights for
practitioners to better understand key improvement directions for Code LLMs.
- Abstract(参考訳): ChatGPTで表される一般的な大規模言語モデル(LLM)は、ソフトウェア工学におけるコード生成のようなタスクにおいて大きな可能性を示している。
このことが、Code LLMとして知られるソフトウェア工学のための特殊なLLMの開発につながった。
Code LLMのかなりの部分は、モデルファインチューニングを通じて一般的なLLMから派生している。
結果として、コード LLM は頻繁に更新され、その性能はベース LLM の影響を受けやすい。
しかし、現在、Code LLMとそのパフォーマンスに関する体系的な調査が欠如している。
本研究では,一般のLLMと比較して,コードLLMの種類と性能の違いに関する総合的な調査と分析を行う。
1) ソフトウェアエンジニアリングタスク用に特別に設計されたLLMとは何か、そして、これらのコードLLMとは何の関係があるのか?
2) コードLLMはソフトウェア工学のタスクにおいて一般的なLLMよりも優れているか?
3)どのllmが異なるソフトウェアエンジニアリングタスクに習熟しているか?
これらの質問に答えるために、私たちはまず、関連する文献を収集し、5つの主要なデータベースとオープンソースコミュニティから作業を行い、分析のために134の作業を行いました。
次に、それらの出版社に基づいてコードLLMを分類し、一般LLMとそれらの関係について検討する。
さらに,各種ソフトウェアエンジニアリングタスクにおける一般LLMとコードLLMのパフォーマンス差について検討し,ベースモデルとコードLLMの影響を実証する。
最後に、複数の主要なベンチマークでLLMの性能を総合的に維持し、各ソフトウェアエンジニアリングタスクで最高の性能のLLMを特定する。
私たちの研究は、より高度なLLMを開発するためのベースモデルを選択する上で、コードLLMの開発者を支援するだけでなく、実践者がコードLLMの重要な改善方向を理解するための洞察も提供します。
関連論文リスト
- From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (2024-08-05T14:01:15Z) - Large Language Models as Software Components: A Taxonomy for LLM-Integrated Applications [0.0]
大規模言語モデル(LLM)が最近広く採用されている。自律エージェントやソフトウェア工学のツールとしての利用について調査している。
一方、LLMの統合されたアプリケーションは、LLMを利用してタスクを実行するソフトウェアシステムである。
本研究は,LLM統合アプリケーションに対する分類学を提供し,これらのシステムの解析と記述のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2024-06-13T21:32:56Z) - Parrot: Efficient Serving of LLM-based Applications with Semantic Variable [11.894203842968745]
Parrotは、LLMベースのアプリケーションのエンドツーエンドエクスペリエンスに焦点を当てたサービスシステムである。
Semantic Variableはリクエストのプロンプトで入出力変数に注釈を付け、複数のLLMリクエストを接続する際にデータパイプラインを生成する。
論文 参考訳(メタデータ) (2024-05-30T09:46:36Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。