論文の概要: Skill over Scale: The Case for Medium, Domain-Specific Models for SE
- arxiv url: http://arxiv.org/abs/2306.03268v3
- Date: Fri, 21 Feb 2025 06:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 21:37:38.745722
- Title: Skill over Scale: The Case for Medium, Domain-Specific Models for SE
- Title(参考訳): スケール以上のスキル:SEのための中規模、ドメイン特化モデル
- Authors: Manisha Mukherjee, Vincent J. Hellendoorn,
- Abstract要約: コードラベリングタスクにおいて、控えめな大きさのドメイン固有モデルは、はるかに大きなモデルよりも優れていることを示す。
SOBertBase (125Mパラメータ)とSOBertLarge (762Mパラメータ)の2つのモデルを、それぞれ374ドルと1600ドルでトレーニングしています。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
- 参考スコア(独自算出の注目度): 4.2630881518611226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in AI have sparked a trend in constructing large, generalist language models that handle a multitude of tasks, including many code-related ones. While these models are expensive to train and are often closed-source, they have enjoyed broad adoption because they tend to outperform smaller, domain-specific models of code. In this work, we argue that this is not a foregone conclusion. We show that modestly sized domain-specific models can outperform much larger ones on code labeling tasks, provided they are trained to the same standards. Concretely, we focus on StackOverflow (SO), which offers large volumes of aligned code and text data. We align established best-practices for pre-training large language models with properties of SO as a data source, especially using a large context window (2,048 tokens), coupled with a powerful toolkit (Megatron-LM) to train two models: SOBertBase (125M parameters) and SOBertLarge (762M parameters), at a budget of just $374 and $1600 each. We compare the performance of our models with a prior domain-specific model which did not adopt many of these practices (BERTOverflow), as well two general-purpose BERT models and two models in OpenAI's GPT series (GPT-3.5 and GPT-4). We study four labeling tasks: question quality prediction, closed question prediction, NER and obsoletion prediction. The final task is a new benchmark we introduce, on which we additionally compare SOBert with a fine-tuned CodeLlama and StackLlama (models with 10x more parameters than SOBertLarge). Our models consistently outperform all baselines. In contrast, BertOverflow is outperformed by generalist models in most tasks. These results demonstrate that pre-training both extensively and properly on in-domain data can yield a powerful and affordable alternative to leveraging closed-source general-purpose models. Both models are released to the public on Hugging Face.
- Abstract(参考訳): AIの最近の進歩は、多数のタスクを扱う大規模で汎用的な言語モデルの構築に拍車をかけた。
これらのモデルはトレーニングに高価で、しばしばクローズドソースであるが、より小さなドメイン固有のコードモデルを上回る傾向にあるため、広く採用されている。
この研究では、これは先入観的な結論ではないと論じる。
ドメイン固有モデルは、同じ標準にトレーニングされている場合、コードラベリングタスクにおいて、はるかに大きなモデルよりも優れていることを示す。
具体的には、大量の整列コードとテキストデータを提供するStackOverflow(SO)に注目します。
SOBertBase(125Mパラメータ)とSOBertLarge(762Mパラメータ)という2つのモデルをトレーニングするための強力なツールキット(Megatron-LM)と組み合わせ、それぞれ374ドルと1600ドルという予算でトレーニングします。
我々は,これらのプラクティスの多くを取り入れていない従来のドメイン固有モデル(BERTOverflow)と,OpenAIのGPTシリーズ(GPT-3.5とGPT-4)の汎用BERTモデルと2つのモデルを比較した。
本研究では,質問品質予測,クローズド質問予測,NER,隠蔽予測の4つのラベリングタスクについて検討する。
最後のタスクは、私たちが導入した新しいベンチマークで、SOBertを微調整されたCodeLlamaとStackLlama(SOBertLargeの10倍のパラメータを持つモデル)と比較します。
私たちのモデルはすべてのベースラインを一貫して上回ります。
対照的に、BertOverflowは多くのタスクにおいてジェネラリストモデルよりも優れている。
これらの結果は、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための強力で安価な代替手段が得られることを示している。
どちらのモデルもHugging Faceで一般公開されている。
関連論文リスト
- Why Personalizing Deep Learning-Based Code Completion Tools Matters [55.39571645315926]
2つの組織(ApacheとSpring)から136人の開発者、2つのモデルアーキテクチャ(T5とCode Llama)、3つのモデルサイズ(60M、750M、および7Bのトレーニング可能なパラメータ)を考える。
Code Llamaモデル(7B)では、すでにトレーニング済みのモデルのパフォーマンスをオンラインで公開し、同じモデルを組織や開発者固有のデータセットに基づいて微調整しました。
以上の結果から,組織別および開発者別追加微調整による予測能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-03-18T12:26:06Z) - Nudging: Inference-time Alignment of LLMs via Guided Decoding [18.530367090350605]
我々は,任意のベースモデルを小さなアライメントモデルを用いて推論時に整列するプラグアンドプレイアルゴリズムであるnudgingを提案する。
看護は、アライメントがスタイリスティックトークンの小さなサブセット上でのモデルの振る舞いを主に変えるという最近の発見によって動機付けられている。
多様なオープンインストラクションタスクにおいて,3つのモデルファミリーにまたがるヌードの評価を行った。
論文 参考訳(メタデータ) (2024-10-11T23:24:38Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。
提案手法は深層学習モデルの説明可能性を強調する。
また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文 参考訳(メタデータ) (2024-05-24T18:22:15Z) - Herd: Using multiple, smaller LLMs to match the performances of proprietary, large LLMs via an intelligent composer [1.3108652488669732]
オープンソースモデルの群れは、インテリジェントルータを介して、プロプライエタリなモデルのパフォーマンスに適合または超えることができることを示す。
GPTがクエリに答えられない場合、Herdは少なくとも40%の確率でモデルを特定できる。
論文 参考訳(メタデータ) (2023-10-30T18:11:02Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model
From Scratch? [0.0]
我々はLongformerモデルを法的なデータに基づいて効率的なRTDタスクで訓練し、より少ない計算量で効率的なLMを事前学習できることを実証する。
私たちは、小さなモデルとベースモデルの両方が、ドメイン内BillSumとドメイン外タスクのベースラインを上回っていることに気付きました。
論文 参考訳(メタデータ) (2022-11-30T16:09:20Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。