論文の概要: Do Large Code Models Understand Programming Concepts? A Black-box
Approach
- arxiv url: http://arxiv.org/abs/2402.05980v1
- Date: Thu, 8 Feb 2024 06:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 19:06:01.777807
- Title: Do Large Code Models Understand Programming Concepts? A Black-box
Approach
- Title(参考訳): 大規模コードモデルはプログラミングの概念を理解するか?
ブラックボックスアプローチ
- Authors: Ashish Hooda, Mihai Christodorescu, Miltos Allamanis, Aaron Wilson,
Kassem Fawaz, Somesh Jha
- Abstract要約: 大規模言語モデルによるテキスト生成の成功により、コード生成やコーディングタスクも改善された。
このギャップを埋めるためには、基礎となるプログラムの論理構造をどの程度の自己回帰モデルで理解するかを探索する。
- 参考スコア(独自算出の注目度): 25.789316158780828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models' success on text generation has also made them better
at code generation and coding tasks. While a lot of work has demonstrated their
remarkable performance on tasks such as code completion and editing, it is
still unclear as to why. We help bridge this gap by exploring to what degree
auto-regressive models understand the logical constructs of the underlying
programs. We propose Counterfactual Analysis for Programming Concept Predicates
(CACP) as a counterfactual testing framework to evaluate whether Large Code
Models understand programming concepts. With only black-box access to the
model, we use CACP to evaluate ten popular Large Code Models for four different
programming concepts. Our findings suggest that current models lack
understanding of concepts such as data flow and control flow.
- Abstract(参考訳): テキスト生成における大きな言語モデルの成功は、コード生成とコーディングタスクをより良くしました。
多くの作業がコード補完や編集などのタスクで顕著なパフォーマンスを示しているが、その理由についてはいまだにはっきりしていない。
このギャップを埋めるためには、基礎となるプログラムの論理構造をどの程度の自己回帰モデルで理解するかを探索する。
本稿では,大規模コードモデルがプログラミング概念を理解するかどうかを評価するために,CACP(Counterfactual Analysis for Programming Concept Predicates)を提案する。
モデルへのブラックボックスアクセスのみを使用して、CACPを使用して、4つの異なるプログラミング概念に対して10の人気のあるLarge Code Modelを評価します。
その結果,現在のモデルではデータフローや制御フローといった概念の理解が欠如していることが示唆された。
関連論文リスト
- DeepCodeProbe: Towards Understanding What Models Trained on Code Learn [13.135962181354465]
本稿では,MLモデルの構文と表現学習能力を調べるための探索手法であるDeepCodeProbeを紹介する。
コードクローン検出,コード要約,コメント生成の最先端モデルにDeepCodeProbeを適用した。
発見によると、小さなモデルは抽象構文表現をキャプチャするが、プログラミング言語の構文を完全に把握する能力は限られている。
論文 参考訳(メタデータ) (2024-07-11T23:16:44Z) - Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。
CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文 参考訳(メタデータ) (2024-06-18T06:52:14Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Toward a Theory of Causation for Interpreting Neural Code Models [49.906221295459275]
本稿では,ニューラルコードモデル(NCM)に特化したポストホック解釈法である$do_code$を紹介する。
$do_code$は、言語指向の説明を可能にする因果推論に基づいている。
その結果,NCMはコード構文の変化に敏感であることが判明した。
論文 参考訳(メタデータ) (2023-02-07T22:56:58Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。