論文の概要: VersiCode: Towards Version-controllable Code Generation
- arxiv url: http://arxiv.org/abs/2406.07411v2
- Date: Wed, 16 Oct 2024 10:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:11.531796
- Title: VersiCode: Towards Version-controllable Code Generation
- Title(参考訳): VersiCode: バージョン管理可能なコード生成を目指す
- Authors: Tongtong Wu, Weigang Wu, Xingyu Wang, Kang Xu, Suyu Ma, Bo Jiang, Ping Yang, Zhenchang Xing, Yuan-Fang Li, Gholamreza Haffari,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
- 参考スコア(独自算出の注目度): 58.82709231906735
- License:
- Abstract: Large Language Models (LLMs) have made tremendous strides in code generation, but existing research fails to account for the dynamic nature of software development, marked by frequent library updates. This gap significantly limits LLMs' deployment in realistic settings. In this paper, we propose two novel tasks aimed at bridging this gap: version-specific code completion (VSCC) and version-aware code migration (VACM). In conjunction, we introduce VersiCode, a comprehensive Python dataset specifically designed to evaluate LLMs on these two tasks, together with a novel evaluation metric, Critical Diff Check (CDC@1), which assesses code generation against evolving API requirements. We conduct an extensive evaluation on VersiCode, which reveals that version-controllable code generation is indeed a significant challenge, even for GPT-4o and other strong frontier models. We believe the novel tasks, dataset, and metric open up a new, important research direction that will further enhance LLMs' real-world applicability. The code and resources can be found at https://github.com/wutong8023/VersiCode.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、頻繁なライブラリ更新を特徴とする、ソフトウェア開発の動的な性質を説明できません。
このギャップは、現実的な設定でのLLMのデプロイメントを著しく制限します。
本稿では,VSCC(Version-specific Code completion)とVACM(Version-aware Code Migration)の2つの新しいタスクを提案する。
この2つのタスク上でLLMを評価するために特別に設計された,包括的なPythonデータセットであるVersiCodeと,新たな評価基準であるCDC@1(Critical Diff Check)を紹介した。
我々はVersiCodeを広範囲に評価し、GPT-4oや他の強力なフロンティアモデルであっても、バージョン管理可能なコード生成は確かに重要な課題であることを示した。
我々は、新しいタスク、データセット、およびメトリクスが、LLMの現実の応用性をさらに向上させる新しい重要な研究方向を開くと信じている。
コードとリソースはhttps://github.com/wutong8023/VersiCodeで確認できる。
関連論文リスト
- A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation [0.0]
最近27の論文がレビューされ、2つのグループに分けられた。
最初のグループは、意味的エラーの特定を含む、バグの検出と修復のための新しいメソッドで構成されている。
2つ目のグループはコード生成に精通しており、プログラミングとタスク固有のモデルのために微調整された汎用LLMの概要を提供している。
また、識別子認識トレーニング、命令レベルでの微調整、セマンティックコード構造の導入など、コード生成を改善する方法も提示されている。
論文 参考訳(メタデータ) (2024-11-12T06:47:54Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。
本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-06-01T17:48:15Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data
and Language Models of Code [6.491009626125319]
コード変更に焦点を当てた生涯学習データセットであるCodeLLを紹介します。
私たちのデータセットは、オープンソースソフトウェアリポジトリのリリース履歴全体にわたるコード変更を包括的にキャプチャすることを目的としています。
CodeLLは、コード変更を学ぶための生涯にわたる微調整設定において、LMの振る舞いを研究することができる。
論文 参考訳(メタデータ) (2023-12-20T01:20:24Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。