論文の概要: BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model
From Scratch?
- arxiv url: http://arxiv.org/abs/2211.17135v1
- Date: Wed, 30 Nov 2022 16:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:29:00.160889
- Title: BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model
From Scratch?
- Title(参考訳): BudgetLongformer: ScratchからSotA法定言語モデルを事前トレーニングすることは可能か?
- Authors: Joel Niklaus, Daniele Giofr\'e
- Abstract要約: 我々はLongformerモデルを法的なデータに基づいて効率的なRTDタスクで訓練し、より少ない計算量で効率的なLMを事前学習できることを実証する。
私たちは、小さなモデルとベースモデルの両方が、ドメイン内BillSumとドメイン外タスクのベースラインを上回っていることに気付きました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pretrained transformer models have achieved state-of-the-art results in many
tasks and benchmarks recently. Many state-of-the-art Language Models (LMs),
however, do not scale well above the threshold of 512 input tokens. In
specialized domains though (such as legal, scientific or biomedical), models
often need to process very long text (sometimes well above 10000 tokens). Even
though many efficient transformers have been proposed (such as Longformer,
BigBird or FNet), so far, only very few such efficient models are available for
specialized domains. Additionally, since the pretraining process is extremely
costly in general - but even more so as the sequence length increases - it is
often only in reach of large research labs. One way of making pretraining
cheaper is the Replaced Token Detection (RTD) task, by providing more signal
during training, since the loss can be computed over all tokens. In this work,
we train Longformer models with the efficient RTD task on legal data to
showcase that pretraining efficient LMs is possible using much less compute. We
evaluate the trained models on challenging summarization tasks requiring the
model to summarize long texts to show to what extent the models can achieve
good performance on downstream tasks. We find that both the small and base
models outperform their baselines on the in-domain BillSum and out-of-domain
PubMed tasks in their respective parameter range. We publish our code and
models for research purposes.
- Abstract(参考訳): 事前訓練されたトランスフォーマーモデルは、最近多くのタスクやベンチマークで最先端の結果を得た。
しかし、多くの最先端言語モデル(LM)は、512の入力トークンのしきい値を超えていない。
しかし、専門分野(法律、科学、生物医学など)では、モデルは非常に長いテキスト(時には10000以上のトークン)を処理する必要がある。
多くの効率的なトランスフォーマー(Longformer、BigBird、FNetなど)が提案されているが、特定のドメインでそのような効率的なモデルが利用できるのはごくわずかである。
加えて、プリトレーニングプロセスは一般的に非常にコストがかかるが、シーケンス長が増加するにつれてさらにコストがかかるため、大規模な研究所にしか手が届かないことが多い。
事前トレーニングを安くする1つの方法は、トレーニング中により多くの信号を提供することで、すべてのトークンで損失を計算できる、置換トークン検出(RTD)タスクである。
本研究では,法データの効率的なrtdタスクを用いてロングフォーマーモデルを訓練し,より少ない計算量で効率的なlmsの事前訓練が可能であることを示す。
我々は,モデルが下流タスクでどの程度の性能を達成できるかを示すために,長いテキストを要約する必要がある課題を要約して,訓練したモデルを評価する。
それぞれのパラメータ範囲において、小モデルとベースモデルの両方が、ドメイン内BillSumとドメイン外PubMedタスクのベースラインを上回っていることが分かりました。
私たちは研究目的でコードとモデルを公開します。
関連論文リスト
- Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Continual Pre-Training of Large Language Models: How to (re)warm your
model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。
我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。
以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-08-08T03:18:18Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - BERTIN: Efficient Pre-Training of a Spanish Language Model using
Perplexity Sampling [0.0]
Common Crawlは、この事前学習サブ最適化を実現するのに十分なノイズを含むかもしれない。
約半分のステップで言語モデルの事前学習を可能にする新しいデータ中心手法を提案する。
私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングするための道を開くものです。
論文 参考訳(メタデータ) (2022-07-14T10:48:42Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。