Fugu-MT 論文翻訳(概要): Do Large Code Models Understand Programming Concepts? Counterfactual Analysis for Code Predicates

論文の概要: Do Large Code Models Understand Programming Concepts? Counterfactual Analysis for Code Predicates

arxiv url: http://arxiv.org/abs/2402.05980v3
Date: Wed, 12 Feb 2025 15:40:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.531472
Title: Do Large Code Models Understand Programming Concepts? Counterfactual Analysis for Code Predicates
Title（参考訳）: 大規模コードモデルはプログラミングの概念を理解するか? コード述語に対する非現実的分析
Authors: Ashish Hooda, Mihai Christodorescu, Miltiadis Allamanis, Aaron Wilson, Kassem Fawaz, Somesh Jha,
Abstract要約: 大規模言語モデルによるテキスト生成の成功により、コード生成やコーディングタスクも改善された。このギャップを埋めるためには、基礎となるプログラムの論理構造をどの程度の自己回帰モデルで理解するかを探索する。
参考スコア（独自算出の注目度）: 32.93686693752635
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models' success on text generation has also made them better at code generation and coding tasks. While a lot of work has demonstrated their remarkable performance on tasks such as code completion and editing, it is still unclear as to why. We help bridge this gap by exploring to what degree auto-regressive models understand the logical constructs of the underlying programs. We propose Counterfactual Analysis for Programming Concept Predicates (CACP) as a counterfactual testing framework to evaluate whether Large Code Models understand programming concepts. With only black-box access to the model, we use CACP to evaluate ten popular Large Code Models for four different programming concepts. Our findings suggest that current models lack understanding of concepts such as data flow and control flow.
Abstract（参考訳）: 大規模言語モデルによるテキスト生成の成功により、コード生成やコーディングタスクも改善された。コード補完や編集などのタスクでは、多くの作業が顕著なパフォーマンスを示しているが、なぜなのかは不明だ。このギャップを埋めるためには、基礎となるプログラムの論理構造をどの程度の自己回帰モデルで理解するかを探索する。本稿では,大規模コードモデルがプログラミング概念を理解しているかどうかを評価するために,CACP(Counterfactual Analysis for Programming Concept Predicates)を提案する。モデルへのブラックボックスアクセスのみを使用して、CACPを使用して、4つの異なるプログラミング概念に対して10の人気のあるLarge Code Modelを評価します。その結果,現在のモデルではデータフローや制御フローといった概念の理解が欠如していることが示唆された。

関連論文リスト

On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文参考訳（メタデータ） (2025-03-21T01:00:45Z)
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文参考訳（メタデータ） (2025-02-26T18:55:42Z)
DeepCodeProbe: Towards Understanding What Models Trained on Code Learn [13.135962181354465]
本稿では,MLモデルの構文と表現学習能力を調べるための探索手法であるDeepCodeProbeを紹介する。コードクローン検出,コード要約,コメント生成の最先端モデルにDeepCodeProbeを適用した。発見によると、小さなモデルは抽象構文表現をキャプチャするが、プログラミング言語の構文を完全に把握する能力は限られている。
論文参考訳（メタデータ） (2024-07-11T23:16:44Z)
Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。 CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文参考訳（メタデータ） (2024-06-18T06:52:14Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文参考訳（メタデータ） (2023-10-03T00:57:26Z)
Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文参考訳（メタデータ） (2023-05-08T10:00:05Z)
Enriching Source Code with Contextual Data for Code Completion Models: An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文参考訳（メタデータ） (2023-04-24T17:09:14Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Toward a Theory of Causation for Interpreting Neural Code Models [49.906221295459275]
本稿では,ニューラルコードモデル(NCM)に特化したポストホック解釈法である$do_code$を紹介する。 $do_code$は、言語指向の説明を可能にする因果推論に基づいている。その結果,NCMはコード構文の変化に敏感であることが判明した。
論文参考訳（メタデータ） (2023-02-07T22:56:58Z)
Contrastive Learning for Source Code with Structural and Functional Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文参考訳（メタデータ） (2021-10-08T02:56:43Z)
Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2021-09-15T17:42:44Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。