論文の概要: Benchmarking Language Models for Code Syntax Understanding
- arxiv url: http://arxiv.org/abs/2210.14473v1
- Date: Wed, 26 Oct 2022 04:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:23:07.105273
- Title: Benchmarking Language Models for Code Syntax Understanding
- Title(参考訳): コード構文理解のためのベンチマーク言語モデル
- Authors: Da Shen, Xinyun Chen, Chenguang Wang, Koushik Sen, Dawn Song
- Abstract要約: 事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
- 参考スコア(独自算出の注目度): 79.11525961219591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have demonstrated impressive performance in both
natural language processing and program understanding, which represent the
input as a token sequence without explicitly modeling its structure. Some prior
works show that pre-trained language models can capture the syntactic rules of
natural languages without finetuning on syntax understanding tasks. However,
there is limited understanding of how well pre-trained models understand the
code structure so far. In this work, we perform the first thorough benchmarking
of the state-of-the-art pre-trained models for identifying the syntactic
structures of programs. Specifically, we introduce CodeSyntax, a large-scale
dataset of programs annotated with the syntactic relationships in their
corresponding abstract syntax trees. Our key observation is that existing
language models pretrained on code still lack the understanding of code syntax.
In fact, these pre-trained programming language models fail to match the
performance of simple baselines based on positional offsets and keywords. We
also present a natural language benchmark to highlight the differences between
natural languages and programming languages in terms of syntactic structure
understanding. Our findings point out key limitations of existing pre-training
methods for programming languages, and suggest the importance of modeling code
syntactic structures.
- Abstract(参考訳): 事前学習された言語モデルは、自然言語処理とプログラム理解の両方において、その構造を明示的にモデル化することなく、入力をトークンシーケンスとして表現する印象的な性能を示している。
事前学習された言語モデルは、構文理解タスクを微調整することなく、自然言語の構文規則を捉えることができる。
しかしながら、事前訓練されたモデルがコード構造をどのように理解しているかについては、限定的な理解がある。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
具体的には,対応する抽象構文木に構文関係を付加した大規模プログラムデータセットであるCodeSyntaxを紹介する。
私たちのキーとなる観察は、コードで事前訓練された既存の言語モデルは、コード構文の理解が欠けていることです。
実際、これらの事前学習されたプログラミング言語モデルは、位置オフセットとキーワードに基づく単純なベースラインのパフォーマンスにマッチしない。
また,自然言語とプログラミング言語の違いを構文構造理解の観点から強調するために,自然言語ベンチマークを提案する。
プログラミング言語における既存の事前学習手法の重要な限界を指摘し,コードの構文構造をモデル化することの重要性を示唆した。
関連論文リスト
- Structured Code Representations Enable Data-Efficient Adaptation of Code
Language Models [45.588949280419584]
プログラム構造を用いて事前学習および微調整を行うことにより、事前訓練済みのコードモデルのデータ効率適応について検討する。
適応するモデルはプログラムの表面形式にのみ事前学習されているが,CST上での連続的な事前学習や微調整は,モデルアーキテクチャを変更することなく,様々なコードタスクのベースラインアプローチよりも改善されている。
論文 参考訳(メタデータ) (2024-01-19T14:27:44Z) - Wave to Syntax: Probing spoken language models for syntax [16.643072915927313]
音声言語の自己教師型および視覚的基盤モデルにおける構文の符号化に着目する。
我々は、構文がネットワークの中間層で最も顕著に捉えられ、より多くのパラメータを持つモデルでより明確に表現されていることを示す。
論文 参考訳(メタデータ) (2023-05-30T11:43:18Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Probing Linguistic Information For Logical Inference In Pre-trained
Language Models [2.4366811507669124]
本稿では,事前学習した言語モデル表現における論理推論のための言語情報探索手法を提案する。
i)事前学習された言語モデルは、推論のためにいくつかの種類の言語情報を符号化するが、弱符号化された情報もいくつか存在する。
シンボリック推論支援のためのセマンティックおよび背景知識基盤としての言語モデルの可能性を実証した。
論文 参考訳(メタデータ) (2021-12-03T07:19:42Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Language-Agnostic Representation Learning of Source Code from Structure
and Context [43.99281651828355]
ソースコードのコンテキストと構造を共同で学習する新しいモデルを提案する。
複数のプログラミング言語から非並列データを共同トレーニングすることで,個々の言語での結果が向上することを示す。
論文 参考訳(メタデータ) (2021-03-21T06:46:06Z) - Learning Music Helps You Read: Using Transfer to Study Linguistic
Structure in Language Models [27.91397366776451]
遅延構造(MIDI音楽またはJavaコード)上でのLSTMのトレーニングは、自然言語でのテストパフォーマンスを改善する。
語彙重なりに制御される自然言語間の移動実験により,試験言語におけるゼロショット性能は,訓練言語とタイプ的類似性に強く相関していることが示された。
論文 参考訳(メタデータ) (2020-04-30T06:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。