論文の概要: LMs: Understanding Code Syntax and Semantics for Code Analysis
- arxiv url: http://arxiv.org/abs/2305.12138v4
- Date: Tue, 13 Feb 2024 04:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 20:09:38.448154
- Title: LMs: Understanding Code Syntax and Semantics for Code Analysis
- Title(参考訳): lms: コード解析のためのコード構文とセマンティクスの理解
- Authors: Wei Ma, Shangqing Liu, Zhihao Lin, Wenhan Wang, Qiang Hu, Ye Liu, Cen
Zhang, Liming Nie, Li Li, Yang Liu
- Abstract要約: 我々は,大規模言語モデル(LLM)の機能と,ソフトウェア工学におけるコード解析の限界を評価する。
GPT4, GPT3.5, StarCoder, CodeLlama-13b-インストラクトという,最先端の4つの基礎モデルを採用している。
- 参考スコア(独自算出の注目度): 25.508254718438636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models~(LLMs) demonstrate significant potential to
revolutionize software engineering (SE) by exhibiting outstanding performance
in SE tasks such as code and document generation. However, the high reliability
and risk control requirements in software engineering raise concerns about the
lack of interpretability of LLMs. To address this concern, we conducted a study
to evaluate the capabilities of LLMs and their limitations for code analysis in
SE. We break down the abilities needed for artificial intelligence~(AI) models
to address SE tasks related to code analysis into three categories: 1) syntax
understanding, 2) static behavior understanding, and 3) dynamic behavior
understanding. Our investigation focused on the ability of LLMs to comprehend
code syntax and semantic structures, which include abstract syntax trees (AST),
control flow graphs (CFG), and call graphs (CG). We employed four
state-of-the-art foundational models, GPT4, GPT3.5, StarCoder and
CodeLlama-13b-instruct. We assessed the performance of LLMs on cross-language
tasks involving C, Java, Python, and Solidity.
Our findings revealed that while LLMs have a talent for understanding code
syntax, they struggle with comprehending code semantics, particularly dynamic
semantics. We conclude that LLMs possess capabilities similar to an Abstract
Syntax Tree (AST) parser, demonstrating initial competencies in static code
analysis. Furthermore, our study highlights that LLMs are susceptible to
hallucinations when interpreting code semantic structures and fabricating
nonexistent facts. These results indicate the need to explore methods to verify
the correctness of LLM output to ensure its dependability in SE. More
importantly, our study provides an initial answer to why the codes generated by
LLM are usually syntax-correct but vulnerable.
- Abstract(参考訳): 大規模言語モデル~(LLM)は、コードや文書生成といったSEタスクにおいて優れたパフォーマンスを示すことによって、ソフトウェア工学(SE)に革命をもたらす大きな可能性を示している。
しかし、ソフトウェア工学における高い信頼性とリスクコントロール要件は、LLMの解釈可能性の欠如を懸念する。
この問題に対処するため,我々はLLMの能力とSEにおけるコード解析の限界を評価する研究を行った。
我々は、コード分析に関連するSEタスクに対処するために人工知能に必要な能力~(AI)モデルを3つのカテゴリに分類する。
1)構文理解。
2)静的な行動の理解,及び
3)動的行動理解。
本研究は,抽象構文木 (AST) や制御フローグラフ (CFG) ,コールグラフ (CG) など,LLMがコード構文や意味構造を理解する能力に注目した。
GPT4, GPT3.5, StarCoder, CodeLlama-13b-インストラクトという4つの最先端基礎モデルを採用した。
C、Java、Python、Solidityを含む言語横断タスクにおけるLLMの性能を評価した。
その結果,LLMにはコード構文を理解する能力がある一方で,コード意味論,特に動的意味論の理解に苦慮していることがわかった。
LLMは抽象構文木(AST)パーサに類似した機能を有し、静的コード解析の初期能力を示す。
さらに,本研究は,llmがコード意味構造を解釈し,存在しない事実をつくり出す際に幻覚になりやすいことを浮き彫りにした。
これらの結果から,LLM出力の正当性を検証し,SEにおける信頼性を保証する方法を検討する必要があることが示唆された。
さらに重要なことは、llmが生成するコードは通常構文が正しいが脆弱である理由に対する最初の答えを提供します。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - INTERS: Unlocking the Power of Large Language Models in Search with
Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - Large Language Models for Code Analysis: Do LLMs Really Do Their Job? [13.48555476110316]
大規模言語モデル(LLM)は、自然言語理解とプログラミングコード処理タスクの領域において大きな可能性を証明している。
本稿では、コード解析タスクの実行におけるLLMの能力を総合的に評価する。
論文 参考訳(メタデータ) (2023-10-18T22:02:43Z) - At Which Training Stage Does Code Data Help LLMs Reasoning? [21.74241875923737]
本稿では,Large Language Models (LLM) に対するコードデータの影響について検討する。
コードとテキストの混合による事前学習 LLM は LLM の一般的な推論能力を大幅に向上させることができる。
命令チューニングの段階では、コードデータはLLMにタスク固有の推論能力を与える。
論文 参考訳(メタデータ) (2023-09-28T09:50:27Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。