論文の概要: A Code Comprehension Benchmark for Large Language Models for Code
- arxiv url: http://arxiv.org/abs/2507.10641v1
- Date: Mon, 14 Jul 2025 16:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.807166
- Title: A Code Comprehension Benchmark for Large Language Models for Code
- Title(参考訳): コードのための大規模言語モデルのためのコード理解ベンチマーク
- Authors: Jayant Havare, Saurav Chaudhary, Ganesh Ramakrishnan, Kaushik Maharajan, Srikanth Tamilselvam,
- Abstract要約: 大規模データセットを用いたコード理解タスクのための大規模言語モデルの微調整を提案する。
コード理解タスクのスイート上で,さまざまなサイズの3つのコードモデルを評価する。
最も重要な改善点はQWQ-32Bモデルで見られ、精度は70%から83.47%に向上した。
- 参考スコア(独自算出の注目度): 20.007789979629784
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models have shown impressive capabilities in coding tasks like code generation and code completion, as they have been trained on a large amount of code data. Also, since one of the core pretraining objectives is Next Token Prediction, these models tends to learn surface-level syntactic patterns in code. However, this does not guarantee code comprehension ability i.e. the ability to capture the semantics of the code. In our opinion, this is the reason why these models often underperform on tasks that require deeper semantic understanding, such as code debugging and code optimization. To address this, we propose fine-tuning these models specifically for code comprehension tasks using large-scale datasets, enabling them to develop a more robust understanding of code semantics. We evaluate three code models of varying sizes on a suite of code comprehension tasks designed to assess semantic understanding beyond surface-level syntactic pattern matching. In particular, we analyze performance on the Subjectivity Grading Task and observe that model performance improves after fine-tuning on relevant downstream tasks. The most significant improvement is seen in the QWQ-32B model, where accuracy increases from 70% to 83.47%. A similar or explainable trend is observed across other models, clearly indicating an enhancement in code comprehension ability. Among the models studied, the DPO-fine-tuned Codestral-22B achieves the highest micro-accuracy of 87.66% on the Subjectivity Grading Task.
- Abstract(参考訳): 大規模な言語モデルでは、大量のコードデータに基づいてトレーニングされたコード生成やコード補完といったコーディングタスクにおいて、素晴らしい能力を示しています。
また、トレーニング対象の1つがNext Token Predictionであるため、これらのモデルはコードの表面レベルの構文パターンを学習する傾向がある。
しかし、これはコードの理解能力、すなわちコードのセマンティクスをキャプチャする能力を保証するものではない。
私たちの意見では、これらのモデルが、コードのデバッグやコードの最適化といった、より深いセマンティックな理解を必要とするタスクにおいて、しばしば過小評価されるのは、これが理由である。
そこで本稿では,大規模データセットを用いたコード理解タスクに特化して,これらのモデルを微調整し,より堅牢なコードセマンティクス理解を実現することを提案する。
表面レベルの構文パターンマッチング以上の意味的理解を評価するために設計された,コード理解タスクのスイート上で,さまざまなサイズの3つのコードモデルを評価する。
特に、主観性グラフ化タスクの性能を分析し、関連する下流タスクの微調整後、モデル性能が向上するのを観察する。
最も重要な改善点はQWQ-32Bモデルで見られ、精度は70%から83.47%に向上した。
同様のあるいは説明可能な傾向が他のモデルで見られ、明らかにコード理解能力の強化を示している。
DPO-fine-tuned Codestral-22Bは、主観性グラディングタスクにおいて87.66%の高精度のマイクロ精度を達成している。
関連論文リスト
- Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Unveiling Code Pre-Trained Models: Investigating Syntax and Semantics Capacities [34.27541293716398]
コードモデルがどのようにコード構文とセマンティクスを表現するかを調べるため、7つのコードモデルを広範囲に分析する。
コード構文とセマンティクスを学習するモデルの能力を評価するための4つの探索タスクを開発した。
コード構文とセマンティクスを習得する際の様々なコードモデルの長所と短所を強調した。
論文 参考訳(メタデータ) (2022-12-20T06:15:17Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Probing Pretrained Models of Source Code [14.904366372190943]
一般的な事前学習モデルは、多くのアプリケーションにおいてタスク固有のモデルよりも優れていることが示されている。
事前訓練されたコードのモデルには、コード構文構造と正当性、識別子の概念、データフローと正当性、自然言語の命名に関する情報が含まれている。
論文 参考訳(メタデータ) (2022-02-16T10:26:14Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。