論文の概要: MATCH: Task-Driven Code Evaluation through Contrastive Learning
- arxiv url: http://arxiv.org/abs/2510.23169v1
- Date: Mon, 27 Oct 2025 09:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.516093
- Title: MATCH: Task-Driven Code Evaluation through Contrastive Learning
- Title(参考訳): MATCH: コントラスト学習によるタスク駆動型コード評価
- Authors: Marah Ghoummaid, Vladimir Tchuiev, Ofek Glick, Michal Moschkovitz, Dotan Di Castro,
- Abstract要約: GitHub Copilotは、GitHubのコードの46%を生成すると見積もっている。
単体テストのような従来の評価手法は、しばしば計算不可能でコストがかかる。
本稿では,新しい参照フリーメトリックであるMATCHを紹介する。
- 参考スコア(独自算出の注目度): 7.552062744661192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-based code generation is increasingly prevalent, with GitHub Copilot estimated to generate 46% of the code on GitHub. Accurately evaluating how well generated code aligns with developer intent remains a critical challenge. Traditional evaluation methods, such as unit tests, are often unscalable and costly. Syntactic similarity metrics (e.g., BLEU, ROUGE) fail to capture code functionality, and metrics like CodeBERTScore require reference code, which is not always available. To address the gap in reference-free evaluation, with few alternatives such as ICE-Score, this paper introduces MATCH, a novel reference-free metric. MATCH uses Contrastive Learning to generate meaningful embeddings for code and natural language task descriptions, enabling similarity scoring that reflects how well generated code implements the task. We show that MATCH achieves stronger correlations with functional correctness and human preference than existing metrics across multiple programming languages.
- Abstract(参考訳): AIベースのコード生成がますます普及しており、GitHub CopilotはGitHub上のコードの46%を生成すると見積もられている。
生成したコードが開発者の意図とどのように一致しているかを正確に評価することは、依然として重要な課題です。
単体テストのような従来の評価手法は、しばしば計算不可能でコストがかかる。
構文的類似性メトリクス(BLEU、ROUGEなど)はコード機能のキャプチャに失敗し、CodeBERTScoreのようなメトリクスは参照コードを必要とする。
基準フリー評価のギャップに対処するため,ICE-Score などの代替案では,新しい基準フリー計量である MATCH を導入している。
MATCHはContrastive Learningを使用して、コードと自然言語のタスク記述に意味のある埋め込みを生成する。
MATCHは,複数のプログラミング言語における既存の指標よりも,機能的正しさと人的嗜好との相関が強いことを示す。
関連論文リスト
- Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates [46.74037090843497]
大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。
本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-26T01:48:57Z) - CodeScore-R: An Automated Robustness Metric for Assessing the FunctionalCorrectness of Code Synthesis [17.747095451792084]
本稿では,コード合成機能を評価するために,CodeScore-Rと呼ばれるロバストな自動計測手法を提案する。
JavaとPythonのコード生成とマイグレーションのタスクでは、CodeScore-Rは他のメトリクスよりも優れています。
論文 参考訳(メタデータ) (2024-06-11T02:51:17Z) - On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation [4.065344017083881]
CodeBERTScoreのような埋め込みベースのメトリクスを使って、機能的正確性や編集作業などの有用な構造を計測する能力を分析します。
その結果,機能的正当性(0.16)との相関は弱いものの,編集作業と強く相関している(0.72)ことがわかった。
論文 参考訳(メタデータ) (2024-04-26T15:54:39Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [75.08995072899594]
コード生成のための評価指標であるCodeBERTScoreを提案する。
CodeBERTScoreは生成されたコードの前に入力された自然言語をエンコードする。
CodeBERTScoreは、既存のすべての指標よりも、人間の嗜好と機能的正しさとの相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。
我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。
n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文 参考訳(メタデータ) (2020-09-22T03:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。