論文の概要: GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models
- arxiv url: http://arxiv.org/abs/2411.05830v1
- Date: Tue, 05 Nov 2024 23:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:30.537903
- Title: GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models
- Title(参考訳): GitChameleon: コード生成モデルのバージョンスイッチ機能について
- Authors: Nizar Islah, Justine Gehring, Diganta Misra, Eilif Muller, Irina Rish, Terry Yue Zhuo, Massimo Caccia,
- Abstract要約: textbfGitChameleonは、116のPythonコード補完問題からなる、手動でキュレートされた新しいデータセットである。
GitChameleonは、バージョン固有のコードを生成するためのモダンな大規模言語モデルの性能を厳格に評価するように設計されている。
- 参考スコア(独自算出の注目度): 16.6780665807022
- License:
- Abstract: The rapid evolution of software libraries presents a significant challenge for code generation models, which must adapt to frequent version updates while maintaining compatibility with previous versions. Existing code completion benchmarks often overlook this dynamic aspect, and the one that does consider it relies on static code prediction tasks without execution-based evaluation, offering a limited perspective on a model's practical usability. To address this gap, we introduce \textbf{\GitChameleon{}}, a novel, manually curated dataset comprising 116 Python code completion problems, each conditioned on specific library versions and accompanied by executable unit tests. \GitChameleon{} is designed to rigorously assess the ability of modern large language models (LLMs) to generate version-specific code that is not only syntactically correct but also functionally accurate upon execution. Our comprehensive evaluations reveal that state-of-the-art LLMs struggle with this task; for instance, \textbf{GPT-4o} achieves a pass@10 of only 39.9\% (43.7\% when provided with error feedback), highlighting the complexity of the problem and the limitations of current models. By providing an execution-based benchmark that emphasizes the dynamic nature of code libraries, \GitChameleon{} serves as a critical tool to advance the development of more adaptable and reliable code generation models. For facilitation for further exploration of version-conditioned code generation, we make our code repository publicly accessible at \url{https://github.com/NizarIslah/GitChameleon}.
- Abstract(参考訳): ソフトウェアライブラリの急速な進化は、コード生成モデルに重大な課題をもたらし、これは、以前のバージョンとの互換性を維持しながら、頻繁なバージョン更新に適応する必要がある。
既存のコード補完ベンチマークは、しばしばこの動的な側面を見落とし、実行ベースの評価なしで静的なコード予測タスクに依存しており、モデルの実用的ユーザビリティについて限定的な視点を提供する。
このギャップに対処するために、我々は116のPythonコード補完問題からなる新しい手作業によるデータセットである \textbf{\GitChameleon{}}を紹介した。
\GitChameleon{}は、構文的に正しいだけでなく、実行時に機能的に正確であるバージョン固有のコードを生成するための、現代の大規模言語モデル(LLM)の能力を厳格に評価するように設計されている。
例えば、 \textbf{GPT-4o} は 39.9\% (43.7\%) のパス@10 を達成し、問題の複雑さと現在のモデルの限界を浮き彫りにしている。
コードライブラリの動的性質を強調する実行ベースのベンチマークを提供することで、 \GitChameleon{} はより適応性が高く信頼性の高いコード生成モデルの開発を促進する重要なツールとなる。
バージョン条件付きコード生成のさらなる調査を容易にするため、コードリポジトリを \url{https://github.com/NizarIslah/GitChameleon} で公開しています。
関連論文リスト
- VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Enhancing Repository-Level Code Generation with Integrated Contextual Information [8.58692613099365]
CatCoderは静的型付けプログラミング言語用に設計された新しいコード生成フレームワークである。
CatCoderは、関連するコードと型コンテキストを統合することで、リポジトリレベルのコード生成を強化する。
CatCoderは、pass@kスコアの点で、RepoCoderベースラインを最大17.35%上回っている。
論文 参考訳(メタデータ) (2024-06-05T13:56:42Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - JumpCoder: Go Beyond Autoregressive Coder via Online Modification [18.9350072969148]
JumpCoderは、人間に似たオンライン修正と非逐次生成が可能な新しいモデルに依存しないフレームワークで、LLMを増強する。
JumpCoderの背景にある重要なアイデアは、生成時に必要に応じて、現在生成されたコードに新しいコードを挿入することである。
論文 参考訳(メタデータ) (2024-01-15T18:04:29Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。