論文の概要: Structured Code Representations Enable Data-Efficient Adaptation of Code
Language Models
- arxiv url: http://arxiv.org/abs/2401.10716v1
- Date: Fri, 19 Jan 2024 14:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:46:35.753218
- Title: Structured Code Representations Enable Data-Efficient Adaptation of Code
Language Models
- Title(参考訳): 構造化符号表現によりコード言語モデルのデータ効率の良い適応を可能にする
- Authors: Mayank Agarwal, Yikang Shen, Bailin Wang, Yoon Kim, Jie Chen
- Abstract要約: プログラム構造を用いて事前学習および微調整を行うことにより、事前訓練済みのコードモデルのデータ効率適応について検討する。
適応するモデルはプログラムの表面形式にのみ事前学習されているが,CST上での連続的な事前学習や微調整は,モデルアーキテクチャを変更することなく,様々なコードタスクのベースラインアプローチよりも改善されている。
- 参考スコア(独自算出の注目度): 45.588949280419584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current language models tailored for code tasks often adopt the
pre-training-then-fine-tuning paradigm from natural language processing,
modeling source code as plain text. This approach, however, overlooks the
unambiguous structures inherent in programming languages. In this work, we
explore data-efficient adaptation of pre-trained code models by further
pre-training and fine-tuning them with program structures. Specifically, we
represent programs as parse trees -- also known as concrete syntax trees (CSTs)
-- and adapt pre-trained models on serialized CSTs. Although the models that we
adapt have been pre-trained only on the surface form of programs, we find that
a small amount of continual pre-training and fine-tuning on CSTs without
changing the model architecture yields improvements over the baseline approach
across various code tasks. The improvements are found to be particularly
significant when there are limited training examples, demonstrating the
effectiveness of integrating program structures with plain-text representation
even when working with backbone models that have not been pre-trained with
structures.
- Abstract(参考訳): コードタスクに適した現在の言語モデルは、しばしば自然言語処理からトレーニング済みの微調整パラダイムを採用し、ソースコードをプレーンテキストとしてモデル化する。
しかし、このアプローチはプログラミング言語に固有の曖昧な構造を見落としている。
そこで本研究では,事前学習とプログラム構造による微調整により,事前学習されたコードモデルのデータ効率適応について検討する。
具体的には、プログラムを、具体的な構文木(CST)としても知られるパースツリーとして表現し、シリアライズされたCSTに事前訓練されたモデルを適用する。
適応するモデルはプログラムの表面形式にのみ事前学習されているが,CST上での連続的な事前学習や微調整は,モデルアーキテクチャを変更することなく,様々なコードタスクのベースラインアプローチよりも改善されている。
これらの改善は、限られたトレーニング例がある場合、特に重要であり、プログラム構造をプレトレーニングされていないバックボーンモデルで作業しても、プレーンテキスト表現と統合する効果を示す。
関連論文リスト
- Text-to-Code Generation with Modality-relative Pre-training [6.546893206010636]
シーケンストークンがどのモダリティに属するかによってどのように適応できるかを検討する。
2つのバックボーンモデルと2つのテストセットにまたがる一貫した改善を観察する。
論文 参考訳(メタデータ) (2024-02-08T16:17:24Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Better Language Models of Code through Self-Improvement [18.75015225501755]
コードのための事前学習言語モデル(PLMC)のための単純なデータ拡張フレームワークを提案する。
本フレームワークは,事前学習と微調整の段階で得られた知識を利用して擬似データを生成し,次のステップのトレーニングデータとして利用する。
その結果,コード関連シーケンス生成タスクにおいて,PLMCの性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-02T10:59:19Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - DeepStruct: Pretraining of Language Models for Structure Prediction [64.84144849119554]
テキストから構造を生成するために,タスクに依存しないコーパスの集合上で言語モデルを事前訓練する。
我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。
10Bパラメータ言語モデルがほとんどのタスクに非自明に転送し、28のデータセットのうち21の最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2022-05-21T00:58:22Z) - Synchromesh: Reliable code generation from pre-trained language models [38.15391794443022]
コード生成のための事前学習モデルの信頼性を大幅に向上するフレームワークであるSynchromeshを提案する。
まず、TST(Target similarity Tuning)を使用して、トレーニングバンクから、セマンティックなサンプル選択の新しい方法を使用して、数ショットのサンプルを検索する。
次に、Synchromeshはサンプルをトレーニング済みの言語モデルに供給し、対象言語の有効なプログラムセットに出力を制約する一般的なフレームワークであるConstrained Semantic Decoding (CSD)を使用してプログラムをサンプリングする。
論文 参考訳(メタデータ) (2022-01-26T22:57:44Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。