Fugu-MT 論文翻訳(概要): GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models

論文の概要: GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models

arxiv url: http://arxiv.org/abs/2411.05830v1
Date: Tue, 05 Nov 2024 23:34:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.896194
Title: GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models
Title（参考訳）: GitChameleon: コード生成モデルのバージョンスイッチ機能について
Authors: Nizar Islah, Justine Gehring, Diganta Misra, Eilif Muller, Irina Rish, Terry Yue Zhuo, Massimo Caccia,
Abstract要約: textbfGitChameleonは、116のPythonコード補完問題からなる、手動でキュレートされた新しいデータセットである。 GitChameleonは、バージョン固有のコードを生成するためのモダンな大規模言語モデルの性能を厳格に評価するように設計されている。
参考スコア（独自算出の注目度）: 16.6780665807022
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid evolution of software libraries presents a significant challenge for code generation models, which must adapt to frequent version updates while maintaining compatibility with previous versions. Existing code completion benchmarks often overlook this dynamic aspect, and the one that does consider it relies on static code prediction tasks without execution-based evaluation, offering a limited perspective on a model's practical usability. To address this gap, we introduce \textbf{\GitChameleon{}}, a novel, manually curated dataset comprising 116 Python code completion problems, each conditioned on specific library versions and accompanied by executable unit tests. \GitChameleon{} is designed to rigorously assess the ability of modern large language models (LLMs) to generate version-specific code that is not only syntactically correct but also functionally accurate upon execution. Our comprehensive evaluations reveal that state-of-the-art LLMs struggle with this task; for instance, \textbf{GPT-4o} achieves a pass@10 of only 39.9\% (43.7\% when provided with error feedback), highlighting the complexity of the problem and the limitations of current models. By providing an execution-based benchmark that emphasizes the dynamic nature of code libraries, \GitChameleon{} serves as a critical tool to advance the development of more adaptable and reliable code generation models. For facilitation for further exploration of version-conditioned code generation, we make our code repository publicly accessible at \url{https://github.com/NizarIslah/GitChameleon}.
Abstract（参考訳）: ソフトウェアライブラリの急速な進化は、コード生成モデルに重大な課題をもたらし、これは、以前のバージョンとの互換性を維持しながら、頻繁なバージョン更新に適応する必要がある。既存のコード補完ベンチマークは、しばしばこの動的な側面を見落とし、実行ベースの評価なしで静的なコード予測タスクに依存しており、モデルの実用的ユーザビリティについて限定的な視点を提供する。このギャップに対処するために、我々は116のPythonコード補完問題からなる新しい手作業によるデータセットである \textbf{\GitChameleon{}}を紹介した。 \GitChameleon{}は、構文的に正しいだけでなく、実行時に機能的に正確であるバージョン固有のコードを生成するための、現代の大規模言語モデル(LLM)の能力を厳格に評価するように設計されている。例えば、 \textbf{GPT-4o} は 39.9\% (43.7\%) のパス@10 を達成し、問題の複雑さと現在のモデルの限界を浮き彫りにしている。コードライブラリの動的性質を強調する実行ベースのベンチマークを提供することで、 \GitChameleon{} はより適応性が高く信頼性の高いコード生成モデルの開発を促進する重要なツールとなる。バージョン条件付きコード生成のさらなる調査を容易にするため、コードリポジトリを \url{https://github.com/NizarIslah/GitChameleon} で公開しています。

関連論文リスト

Robust Learning of Diverse Code Edits [10.565439872488328]
ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。コード言語モデル(LM)には、さまざまなタイプのコード編集要求を処理する能力がない。
論文参考訳（メタデータ） (2025-03-05T16:39:04Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
Enhancing Repository-Level Code Generation with Integrated Contextual Information [8.58692613099365]
CatCoderは静的型付けプログラミング言語用に設計された新しいコード生成フレームワークである。 CatCoderは、関連するコードと型コンテキストを統合することで、リポジトリレベルのコード生成を強化する。 CatCoderは、pass@kスコアの点で、RepoCoderベースラインを最大17.35%上回っている。
論文参考訳（メタデータ） (2024-06-05T13:56:42Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
JumpCoder: Go Beyond Autoregressive Coder via Online Modification [18.9350072969148]
JumpCoderは、人間に似たオンライン修正と非逐次生成が可能な新しいモデルに依存しないフレームワークで、LLMを増強する。 JumpCoderの背景にある重要なアイデアは、生成時に必要に応じて、現在生成されたコードに新しいコードを挿入することである。
論文参考訳（メタデータ） (2024-01-15T18:04:29Z)
Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文参考訳（メタデータ） (2023-05-08T10:00:05Z)
Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。 CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2022-12-20T23:49:37Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。