論文の概要: GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities
- arxiv url: http://arxiv.org/abs/2507.12367v1
- Date: Wed, 16 Jul 2025 16:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.463627
- Title: GitChameleon: Evaluating AI Code Generation Against Python Library Version Incompatibilities
- Title(参考訳): GitChameleon: Pythonライブラリのバージョン互換性に対するAIコード生成の評価
- Authors: Diganta Misra, Nizar Islah, Victor May, Brice Rauby, Zihan Wang, Justine Gehring, Antonio Orvieto, Muawiz Chaudhary, Eilif B. Muller, Irina Rish, Samira Ebrahimi Kahou, Massimo Caccia,
- Abstract要約: GitChameleonは、328のPythonコード補完問題からなる、巧妙にキュレートされた新しいデータセットです。
GitChameleonは、バージョン条件のコード生成を実行するために、現代の大規模言語モデル(LLM)、LLMエージェント、コードアシスタント、RAGシステムの能力を厳格に評価している。
- 参考スコア(独自算出の注目度): 26.381134558374743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of software libraries poses a considerable hurdle for code generation, necessitating continuous adaptation to frequent version updates while preserving backward compatibility. While existing code evolution benchmarks provide valuable insights, they typically lack execution-based evaluation for generating code compliant with specific library versions. To address this, we introduce GitChameleon, a novel, meticulously curated dataset comprising 328 Python code completion problems, each conditioned on specific library versions and accompanied by executable unit tests. GitChameleon rigorously evaluates the capacity of contemporary large language models (LLMs), LLM-powered agents, code assistants, and RAG systems to perform version-conditioned code generation that demonstrates functional accuracy through execution. Our extensive evaluations indicate that state-of-the-art systems encounter significant challenges with this task; enterprise models achieving baseline success rates in the 48-51\% range, underscoring the intricacy of the problem. By offering an execution-based benchmark emphasizing the dynamic nature of code libraries, GitChameleon enables a clearer understanding of this challenge and helps guide the development of more adaptable and dependable AI code generation methods. We make the dataset and evaluation code publicly available at https://github.com/mrcabbage972/GitChameleonBenchmark.
- Abstract(参考訳): ソフトウェアライブラリの急速な進化は、コード生成にかなりのハードルをもたらし、後方互換性を維持しながら、頻繁なバージョン更新への継続的適応を必要とします。
既存のコード進化ベンチマークは貴重な洞察を提供するが、通常は特定のライブラリバージョンに準拠したコードを生成するための実行ベースの評価を欠いている。
この問題に対処するために、GitChameleonを紹介します。これは、328のPythonコード補完問題で構成された、新しく精巧にキュレートされたデータセットで、それぞれが特定のライブラリバージョンで条件付けられ、実行可能なユニットテストが伴います。
GitChameleonは、現在の大規模言語モデル(LLM)、LLM駆動エージェント、コードアシスタント、RAGシステムの能力を厳格に評価し、実行による機能的正確性を示すバージョン条件付きコード生成を実行する。
現状のシステムは,48~51パーセントの範囲でベースライン成功率を達成する企業モデルは,問題の難しさを浮き彫りにしている。
コードライブラリの動的性質を強調する実行ベースのベンチマークを提供することで、GitChameleonはこの課題を明確に理解し、より適応性と信頼性の高いAIコード生成メソッドの開発を支援する。
私たちはデータセットと評価コードをhttps://github.com/mrcabbage972/GitChameleonBenchmarkで公開しています。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文 参考訳(メタデータ) (2025-07-14T02:36:27Z) - CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale [39.54772602678732]
本稿では,古いコードパターンを識別するデータエンジンであるCODESYNCを紹介する。
CODESYNCをベースとしたCODESYNCBENCHは,CODESYNCBENCH(CODESYNCBENCH)という,大規模言語モデルのコード進化と同期する能力を評価するベンチマークである。
論文 参考訳(メタデータ) (2025-02-23T16:46:18Z) - LibEvolutionEval: A Benchmark and Study for Version-Specific Code Generation [40.87656746406113]
LibEvolutionEvalは,インラインコード補完を正確に行うために,ライブラリ進化の理解を必要とする研究である。
パブリック・モデルの評価を行い、パブリック・ライブラリの進化がモデルの性能に大きく影響することを発見した。
本稿では,検索したバージョン固有のライブラリの文書化と,高速に進化するパッケージを扱う際のモデルの能力向上について検討する。
論文 参考訳(メタデータ) (2024-11-19T21:52:23Z) - GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models [16.6780665807022]
textbfGitChameleonは、116のPythonコード補完問題からなる、手動でキュレートされた新しいデータセットである。
GitChameleonは、バージョン固有のコードを生成するためのモダンな大規模言語モデルの性能を厳格に評価するように設計されている。
論文 参考訳(メタデータ) (2024-11-05T23:34:06Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。