論文の概要: Automatically Recommend Code Updates: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2209.07048v3
- Date: Sun, 12 May 2024 05:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 02:01:31.844445
- Title: Automatically Recommend Code Updates: Are We There Yet?
- Title(参考訳): 自動推奨コード更新:まだ存在するか?
- Authors: Yue Liu, Chakkrit Tantithamthavorn, Yonghui Liu, Patanamon Thongtanunam, Li Li,
- Abstract要約: 本稿では,コード更新を自動的に推奨する最先端のCodeLMを初めて評価する。
その結果,CodeLMは時間的情報を無視した設定では良好に動作しているが,より現実的な時間的シナリオでは困難であることがわかった。
本研究は,実世界のコード更新レコメンデーションにおいて,CodeLMの認識と実際の有効性の間に有意なギャップがあることを明らかにする。
- 参考スコア(独自算出の注目度): 14.997510035210842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large pre-trained Language Models of Code (CodeLMs) have shown promising results on various software engineering tasks. One such task is automatic code update recommendation, which transforms outdated code snippets into their approved and revised counterparts. Although many CodeLM-based approaches have been proposed, claiming high accuracy, their effectiveness and reliability on real-world code update tasks remain questionable. In this paper, we present the first extensive evaluation of state-of-the-art CodeLMs for automatically recommending code updates. We assess their performance on two diverse datasets of paired updated methods, considering factors such as temporal evolution, project specificity, method size, and update complexity. Our results reveal that while CodeLMs perform well in settings that ignore temporal information, they struggle in more realistic time-wise scenarios and generalize poorly to new projects. Furthermore, CodeLM performance decreases significantly for larger methods and more complex updates. Furthermore, we observe that many CodeLM-generated "updates" are actually null, especially in time-wise settings, and meaningful edits remain challenging. Our findings highlight the significant gap between the perceived and actual effectiveness of CodeLMs for real-world code update recommendation and emphasize the need for more research on improving their practicality, robustness, and generalizability.
- Abstract(参考訳): 近年、CodeLM(Code-trained Language Models of Code)は、様々なソフトウェアエンジニアリングタスクにおいて有望な結果を示している。
そのようなタスクのひとつが自動コード更新レコメンデーションであり、古いコードスニペットを承認および修正されたコードに変換する。
多くのCodeLMベースのアプローチが提案されているが、精度が高く、実際のコード更新タスクの有効性と信頼性は疑問視されている。
本稿では,コード更新を自動で推奨する,最先端のCodeLMの広範な評価を行う。
時間的進化, プロジェクトの特異性, メソッドサイズ, 更新複雑性などの要因を考慮し, ペア更新手法の2つの多種多様なデータセットの性能評価を行った。
結果から,CodeLMは時間的情報を無視した環境では良好に機能するが,より現実的な時間的シナリオに苦しむとともに,新しいプロジェクトへの一般化が不十分であることが明らかとなった。
さらに、より大規模なメソッドやより複雑な更新では、CodeLMのパフォーマンスが大幅に低下する。
さらに、多くのCodeLM生成した"更新"は実際にはnullであり、特に時間的な設定では意味のある編集は難しいままである。
本研究は,実世界のコード更新勧告におけるCodeLMの認識と実際の有効性の間に有意なギャップを生じさせ,実用性,堅牢性,一般化性の向上に向けたさらなる研究の必要性を強調した。
関連論文リスト
- CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - APILOT: Navigating Large Language Models to Generate Secure Code by Sidestepping Outdated API Pitfalls [15.865915079829943]
APILOTは、時代遅れのAPIのリアルタイム、即時更新可能なデータセットを維持している。
拡張ジェネレーションメソッドを使用して、セキュアでバージョン対応のコードを生成するLLMをナビゲートする。
古いコードレコメンデーションを平均89.42%削減し、パフォーマンス上のオーバーヘッドを制限できる。
論文 参考訳(メタデータ) (2024-09-25T00:37:40Z) - A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。
自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文 参考訳(メタデータ) (2024-08-29T12:56:06Z) - An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。
CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文 参考訳(メタデータ) (2024-08-28T09:19:09Z) - CodeUpdateArena: Benchmarking Knowledge Editing on API Updates [77.81663273436375]
コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを提示する。
私たちのベンチマークのインスタンスは、プログラム合成例と組み合わせた合成API関数のアップデートで構成されています。
ベンチマークでは、7つのPythonパッケージから54の関数へ、さまざまなタイプの更新をカバーしています。
論文 参考訳(メタデータ) (2024-07-08T17:55:04Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。