論文の概要: Structure-aware Fine-tuning for Code Pre-trained Models
- arxiv url: http://arxiv.org/abs/2404.07471v1
- Date: Thu, 11 Apr 2024 04:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:08:41.538921
- Title: Structure-aware Fine-tuning for Code Pre-trained Models
- Title(参考訳): コード事前学習モデルのための構造認識ファインチューニング
- Authors: Jiayi Wu, Renyu Zhu, Nuo Chen, Qiushi Sun, Xiang Li, Ming Gao,
- Abstract要約: CodePTMのための構造化・プラグ・アンド・プレイファインチューニング法である、構造対応ファインチューニング(SAT)を提案する。
まず,CodePTMから得られた情報と,コード構造から抽出した知識との差を定量化する構造損失を提案する。
次に、微調整性能を向上させるためにマルチタスク学習を導入する。
- 参考スコア(独自算出の注目度): 30.989863310409568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past few years, we have witnessed remarkable advancements in Code Pre-trained Models (CodePTMs). These models achieved excellent representation capabilities by designing structure-based pre-training tasks for code. However, how to enhance the absorption of structural knowledge when fine-tuning CodePTMs still remains a significant challenge. To fill this gap, in this paper, we present Structure-aware Fine-tuning (SAT), a novel structure-enhanced and plug-and-play fine-tuning method for CodePTMs. We first propose a structure loss to quantify the difference between the information learned by CodePTMs and the knowledge extracted from code structure. Specifically, we use the attention scores extracted from Transformer layer as the learned structural information, and the shortest path length between leaves in abstract syntax trees as the structural knowledge. Subsequently, multi-task learning is introduced to improve the performance of fine-tuning. Experiments conducted on four pre-trained models and two generation tasks demonstrate the effectiveness of our proposed method as a plug-and-play solution. Furthermore, we observed that SAT can benefit CodePTMs more with limited training data.
- Abstract(参考訳): ここ数年、私たちはCode PTM(Code Pre-trained Models)の目覚ましい進歩を目にしてきました。
これらのモデルは、コードのための構造ベースの事前訓練タスクを設計することで、優れた表現機能を実現した。
しかし、CodePTMを微調整する際の構造的知識の吸収をいかに向上させるかは、いまだに重要な課題である。
このギャップを埋めるために、本論文では、CodePTMの新規な構造強化およびプラグアンドプレイファインチューニング法である、構造対応ファインチューニング(SAT)を提案する。
まず,CodePTMから得られた情報と,コード構造から抽出した知識との差を定量化する構造損失を提案する。
具体的には,トランスフォーマー層から抽出したアテンションスコアを学習構造情報として,抽象構文木における葉間の最短経路長を構造知識として用いた。
その後、微調整性能を向上させるためにマルチタスク学習を導入する。
4つの事前学習モデルと2つの世代タスクで行った実験は,プラグアンドプレイソリューションとして提案手法の有効性を示した。
さらに, SATは, 限られたトレーニングデータで, CodePTMの恩恵を受けることができることを示した。
関連論文リスト
- Structure-aware Domain Knowledge Injection for Large Language Models [37.089378357827826]
本稿では,基礎言語モデル(LLM)をドメインスペシャリストに効率的に変換する手法であるStructTuningを紹介する。
従来の知識注入性能の50%を達成しながら、トレーニングコーパスの要求をわずか0.3%まで大幅に削減する。
本手法は,MMedBench の最先端 MMedLM2 に対して,トレーニングコストが5% に大幅に削減される可能性を示した。
論文 参考訳(メタデータ) (2024-07-23T12:38:48Z) - CF-OPT: Counterfactual Explanations for Structured Prediction [47.36059095502583]
ディープニューラルネットワークの最適化レイヤは構造化学習で人気を博し、さまざまなアプリケーションにおける最先端技術の改善に寄与している。
しかし、これらのパイプラインは2つの不透明な層(ディープニューラルネットワークのような非常に非線形な予測モデル)と、通常複雑なブラックボックス解決器である最適化層)で構成されているため、解釈性に欠ける。
我々のゴールは、このような手法の透明性を向上させることであり、対実的な説明を提供することである。
論文 参考訳(メタデータ) (2024-05-28T15:48:27Z) - Structured Code Representations Enable Data-Efficient Adaptation of Code
Language Models [45.588949280419584]
プログラム構造を用いて事前学習および微調整を行うことにより、事前訓練済みのコードモデルのデータ効率適応について検討する。
適応するモデルはプログラムの表面形式にのみ事前学習されているが,CST上での連続的な事前学習や微調整は,モデルアーキテクチャを変更することなく,様々なコードタスクのベースラインアプローチよりも改善されている。
論文 参考訳(メタデータ) (2024-01-19T14:27:44Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。
新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2020-12-29T11:37:43Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。