論文の概要: How to Select Pre-Trained Code Models for Reuse? A Learning Perspective
- arxiv url: http://arxiv.org/abs/2501.03783v1
- Date: Tue, 07 Jan 2025 13:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:55.855423
- Title: How to Select Pre-Trained Code Models for Reuse? A Learning Perspective
- Title(参考訳): 再利用のための事前学習コードモデルの選択方法 : 学習の視点から
- Authors: Zhangqian Bi, Yao Wan, Zhaoyang Chu, Yufei Hu, Junyi Zhang, Hongyu Zhang, Guandong Xu, Hai Jin,
- Abstract要約: 市販の事前訓練コードモデル(PCM)が公開されている。
コードインテリジェンスタスクに広く使用されている100のオープンソースPCMで実験を行い、サイズは425万から30億のパラメータです。
その結果, ブラトフォース微調整を施した2,700時間に対して, 学習ベース選択法は選択時間を100秒に短縮した。
- 参考スコア(独自算出の注目度): 29.83900262273832
- License:
- Abstract: Pre-training a language model and then fine-tuning it has shown to be an efficient and effective technique for a wide range of code intelligence tasks, such as code generation, code summarization, and vulnerability detection. However, pretraining language models on a large-scale code corpus is computationally expensive. Fortunately, many off-the-shelf Pre-trained Code Models (PCMs), such as CodeBERT, CodeT5, CodeGen, and Code Llama, have been released publicly. These models acquire general code understanding and generation capability during pretraining, which enhances their performance on downstream code intelligence tasks. With an increasing number of these public pre-trained models, selecting the most suitable one to reuse for a specific task is essential. In this paper, we systematically investigate the reusability of PCMs. We first explore three intuitive model selection methods that select by size, training data, or brute-force fine-tuning. Experimental results show that these straightforward techniques either perform poorly or suffer high costs. Motivated by these findings, we explore learning-based model selection strategies that utilize pre-trained models without altering their parameters. Specifically, we train proxy models to gauge the performance of pre-trained models, and measure the distribution deviation between a model's latent features and the task's labels, using their closeness as an indicator of model transferability. We conduct experiments on 100 widely-used opensource PCMs for code intelligence tasks, with sizes ranging from 42.5 million to 3 billion parameters. The results demonstrate that learning-based selection methods reduce selection time to 100 seconds, compared to 2,700 hours with brute-force fine-tuning, with less than 6% performance degradation across related tasks.
- Abstract(参考訳): 言語モデルの事前トレーニングと微調整は、コード生成、コードの要約、脆弱性検出など、幅広いコードインテリジェンスタスクに対して効率的かつ効果的なテクニックであることが示されている。
しかし、大規模コードコーパスでの事前学習言語モデルは計算コストが高い。
幸いにも、CodeBERT、CodeT5、CodeGen、Code Llamaといった既製の事前訓練コードモデル(PCM)が公開されている。
これらのモデルは、事前トレーニング中に一般的なコード理解と生成能力を取得し、下流のコードインテリジェンスタスクのパフォーマンスを向上させる。
これらの公開事前訓練モデルの増加に伴い、特定のタスクの再利用に最も適したモデルを選択することが不可欠である。
本稿では,PCMの再利用可能性について系統的に検討する。
まず、サイズ、トレーニングデータ、ブルートフォース微調整の3つの直感的なモデル選択法について検討する。
実験の結果、これらの簡単な手法は性能が良くないか、高いコストを被ることがわかった。
これらの結果から,事前学習モデルを用いた学習モデル選択戦略を,パラメータの変更を伴わずに検討した。
具体的には,事前学習モデルの性能を評価するためにプロキシモデルを訓練し,モデルの潜在特徴とタスクのラベルとの分布偏差をモデル伝達可能性の指標として用いた。
コードインテリジェンスタスクに広く使用されている100のオープンソースPCMで実験を行い、サイズは425万から30億のパラメータです。
その結果、学習に基づく選択法は、ブルートフォース微調整の2,700時間に比べ、選択時間を100秒に短縮し、関連するタスク間の性能劣化は6%以下であった。
関連論文リスト
- A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Active Code Learning: Benchmarking Sample-Efficient Training of Code
Models [35.54965391159943]
ソフトウェアエンジニアリング(ML4Code)では、人的労力の少ないコードのモデルを効率的にトレーニングすることが、緊急の問題となっている。
アクティブな学習は、開発者が望ましいパフォーマンスでモデルを生成しながら、少ないデータでモデルをトレーニングすることを可能にするようなテクニックです。
本稿は、この重要な問題であるアクティブコード学習を研究するための最初のベンチマークを構築します。
論文 参考訳(メタデータ) (2023-06-02T03:26:11Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。