Fugu-MT 論文翻訳(概要): How to Select Pre-Trained Code Models for Reuse? A Learning Perspective

論文の概要: How to Select Pre-Trained Code Models for Reuse? A Learning Perspective

arxiv url: http://arxiv.org/abs/2501.03783v1
Date: Tue, 07 Jan 2025 13:45:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:03.047247
Title: How to Select Pre-Trained Code Models for Reuse? A Learning Perspective
Title（参考訳）: 再利用のための事前学習コードモデルの選択方法 : 学習の視点から
Authors: Zhangqian Bi, Yao Wan, Zhaoyang Chu, Yufei Hu, Junyi Zhang, Hongyu Zhang, Guandong Xu, Hai Jin,
Abstract要約: 市販の事前訓練コードモデル(PCM)が公開されている。コードインテリジェンスタスクに広く使用されている100のオープンソースPCMで実験を行い、サイズは425万から30億のパラメータです。その結果, ブラトフォース微調整を施した2,700時間に対して, 学習ベース選択法は選択時間を100秒に短縮した。
参考スコア（独自算出の注目度）: 29.83900262273832
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Pre-training a language model and then fine-tuning it has shown to be an efficient and effective technique for a wide range of code intelligence tasks, such as code generation, code summarization, and vulnerability detection. However, pretraining language models on a large-scale code corpus is computationally expensive. Fortunately, many off-the-shelf Pre-trained Code Models (PCMs), such as CodeBERT, CodeT5, CodeGen, and Code Llama, have been released publicly. These models acquire general code understanding and generation capability during pretraining, which enhances their performance on downstream code intelligence tasks. With an increasing number of these public pre-trained models, selecting the most suitable one to reuse for a specific task is essential. In this paper, we systematically investigate the reusability of PCMs. We first explore three intuitive model selection methods that select by size, training data, or brute-force fine-tuning. Experimental results show that these straightforward techniques either perform poorly or suffer high costs. Motivated by these findings, we explore learning-based model selection strategies that utilize pre-trained models without altering their parameters. Specifically, we train proxy models to gauge the performance of pre-trained models, and measure the distribution deviation between a model's latent features and the task's labels, using their closeness as an indicator of model transferability. We conduct experiments on 100 widely-used opensource PCMs for code intelligence tasks, with sizes ranging from 42.5 million to 3 billion parameters. The results demonstrate that learning-based selection methods reduce selection time to 100 seconds, compared to 2,700 hours with brute-force fine-tuning, with less than 6% performance degradation across related tasks.
Abstract（参考訳）: 言語モデルの事前トレーニングと微調整は、コード生成、コードの要約、脆弱性検出など、幅広いコードインテリジェンスタスクに対して効率的かつ効果的なテクニックであることが示されている。しかし、大規模コードコーパスでの事前学習言語モデルは計算コストが高い。幸いにも、CodeBERT、CodeT5、CodeGen、Code Llamaといった既製の事前訓練コードモデル(PCM)が公開されている。これらのモデルは、事前トレーニング中に一般的なコード理解と生成能力を取得し、下流のコードインテリジェンスタスクのパフォーマンスを向上させる。これらの公開事前訓練モデルの増加に伴い、特定のタスクの再利用に最も適したモデルを選択することが不可欠である。本稿では,PCMの再利用可能性について系統的に検討する。まず、サイズ、トレーニングデータ、ブルートフォース微調整の3つの直感的なモデル選択法について検討する。実験の結果、これらの簡単な手法は性能が良くないか、高いコストを被ることがわかった。これらの結果から,事前学習モデルを用いた学習モデル選択戦略を,パラメータの変更を伴わずに検討した。具体的には,事前学習モデルの性能を評価するためにプロキシモデルを訓練し,モデルの潜在特徴とタスクのラベルとの分布偏差をモデル伝達可能性の指標として用いた。コードインテリジェンスタスクに広く使用されている100のオープンソースPCMで実験を行い、サイズは425万から30億のパラメータです。その結果、学習に基づく選択法は、ブルートフォース微調整の2,700時間に比べ、選択時間を100秒に短縮し、関連するタスク間の性能劣化は6%以下であった。

関連論文リスト

Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文参考訳（メタデータ） (2024-03-28T14:44:44Z)
Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文参考訳（メタデータ） (2023-12-08T19:26:13Z)
Active Code Learning: Benchmarking Sample-Efficient Training of Code Models [35.54965391159943]
ソフトウェアエンジニアリング(ML4Code)では、人的労力の少ないコードのモデルを効率的にトレーニングすることが、緊急の問題となっている。アクティブな学習は、開発者が望ましいパフォーマンスでモデルを生成しながら、少ないデータでモデルをトレーニングすることを可能にするようなテクニックです。本稿は、この重要な問題であるアクティブコード学習を研究するための最初のベンチマークを構築します。
論文参考訳（メタデータ） (2023-06-02T03:26:11Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)
TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文参考訳（メタデータ） (2023-03-24T17:56:22Z)
MILO: Model-Agnostic Subset Selection Framework for Efficient Model Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文参考訳（メタデータ） (2023-01-30T20:59:30Z)
Bridging Pre-trained Models and Downstream Tasks for Source Code Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。我々は、下流データの多様性を豊かにする意味保存変換を利用する。本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文参考訳（メタデータ） (2021-12-04T07:21:28Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。