論文の概要: Exploring and Evaluating Personalized Models for Code Generation
- arxiv url: http://arxiv.org/abs/2208.13928v1
- Date: Mon, 29 Aug 2022 23:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 12:37:17.630964
- Title: Exploring and Evaluating Personalized Models for Code Generation
- Title(参考訳): コード生成のためのパーソナライズドモデル探索と評価
- Authors: Andrei Zlotchevski, Dawn Drain, Alexey Svyatkovskiy, Colin Clement,
Neel Sundaresan, Michele Tufano
- Abstract要約: パーソナライズのための変換器モデルの微調整を評価する。
i) すべてのモデルパラメータをチューニングできるカスタム微調整。
コード生成のためのこれらの微調整戦略を比較し、様々なデプロイメントシナリオにおいて、それぞれの潜在的な一般化とコスト効果について議論する。
- 参考スコア(独自算出の注目度): 9.25440316608194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Transformer models achieved the state-of-the-art status for Natural
Language Understanding tasks and are increasingly becoming the baseline model
architecture for modeling source code. Transformers are usually pre-trained on
large unsupervised corpora, learning token representations and transformations
relevant to modeling generally available text, and are then fine-tuned on a
particular downstream task of interest. While fine-tuning is a tried-and-true
method for adapting a model to a new domain -- for example, question-answering
on a given topic -- generalization remains an on-going challenge. In this
paper, we explore and evaluate transformer model fine-tuning for
personalization. In the context of generating unit tests for Java methods, we
evaluate learning to personalize to a specific software project using several
personalization techniques. We consider three key approaches: (i) custom
fine-tuning, which allows all the model parameters to be tuned; (ii)
lightweight fine-tuning, which freezes most of the model's parameters, allowing
tuning of the token embeddings and softmax layer only or the final layer alone;
(iii) prefix tuning, which keeps model parameters frozen, but optimizes a small
project-specific prefix vector. Each of these techniques offers a trade-off in
total compute cost and predictive performance, which we evaluate by code and
task-specific metrics, training time, and total computational operations. We
compare these fine-tuning strategies for code generation and discuss the
potential generalization and cost benefits of each in various deployment
scenarios.
- Abstract(参考訳): 大規模トランスフォーマーモデルは、自然言語理解タスクの最先端ステータスを達成し、ソースコードをモデリングするためのベースラインモデルアーキテクチャになりつつある。
トランスフォーマーは通常、大きな教師なしコーパスで事前訓練され、一般的なテキストのモデリングに関連するトークン表現と変換を学習し、特定の下流タスクで微調整される。
微調整は、モデルを新しいドメインに適応させるための試行錯誤の方法である — 例えば、あるトピックに対する質問応答 – が、現在進行中の課題である。
本稿では,パーソナライゼーションのためのトランスフォーマーモデルの微調整について検討・評価する。
Javaメソッドの単体テストを生成するコンテキストにおいて、いくつかのパーソナライズ手法を用いて、特定のソフトウェアプロジェクトにパーソナライズする学習を評価する。
3つの重要なアプローチを考えます
(i) すべてのモデルパラメータをチューニングできるカスタム微調整。
(ii)軽量な微調整により、モデルのパラメータの大部分を凍結し、トークンの埋め込みとソフトマックス層のみまたは最終層のみをチューニングできる。
(iii)プレフィックスチューニングはモデルパラメータを凍結し続けるが、小さなプロジェクト固有のプレフィックスベクトルを最適化する。
これらのテクニックはそれぞれ、計算コストと予測パフォーマンスのトレードオフを提供し、コードとタスク固有のメトリクス、トレーニング時間、計算処理の総数で評価します。
コード生成のためのこれらの微調整戦略を比較し、様々なデプロイメントシナリオにおいて、それぞれの潜在的な一般化とコスト効果について議論する。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Prototypical Fine-tuning: Towards Robust Performance Under Varying Data
Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。
提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文 参考訳(メタデータ) (2022-11-24T14:38:08Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Model-agnostic and Scalable Counterfactual Explanations via
Reinforcement Learning [0.5729426778193398]
本稿では,最適化手順をエンドツーエンドの学習プロセスに変換する深層強化学習手法を提案する。
実世界のデータを用いた実験により,本手法はモデルに依存しず,モデル予測からのフィードバックのみに依存することがわかった。
論文 参考訳(メタデータ) (2021-06-04T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。