論文の概要: Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models
- arxiv url: http://arxiv.org/abs/2202.04173v3
- Date: Fri, 21 Oct 2022 23:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 14:47:13.919452
- Title: Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models
- Title(参考訳): 大規模言語モデルのデトックス化のためのドメイン適応トレーニングの限界を探る
- Authors: Boxin Wang, Wei Ping, Chaowei Xiao, Peng Xu, Mostofa Patwary, Mohammad
Shoeybi, Bo Li, Anima Anandkumar, Bryan Catanzaro
- Abstract要約: 言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
- 参考スコア(独自算出の注目度): 84.30718841659531
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained language models (LMs) are shown to easily generate toxic
language. In this work, we systematically explore domain-adaptive training to
reduce the toxicity of language models. We conduct this study on three
dimensions: training corpus, model size, and parameter efficiency. For the
training corpus, we propose to leverage the generative power of LMs and
generate nontoxic datasets for domain-adaptive training, which mitigates the
exposure bias and is shown to be more data-efficient than using a curated
pre-training corpus. We demonstrate that the self-generation method
consistently outperforms the existing baselines across various model sizes on
both automatic and human evaluations, even when it uses a 1/3 smaller training
corpus. We then comprehensively study detoxifying LMs with parameter sizes
ranging from 126M up to 530B (3x larger than GPT-3), a scale that has never
been studied before. We find that i) large LMs have similar toxicity levels as
smaller ones given the same pre-training corpus, and ii) large LMs require more
endeavor to detoxify. We also explore parameter-efficient training methods for
detoxification. We demonstrate that adding and training adapter-only layers in
LMs not only saves a lot of parameters but also achieves a better trade-off
between toxicity and perplexity than whole model adaptation for the large-scale
models.
- Abstract(参考訳): 事前訓練された言語モデル(LM)は、有害な言語を容易に生成できることが示されている。
本研究では,言語モデルの毒性を軽減するためのドメイン適応トレーニングを体系的に検討する。
本研究は,トレーニングコーパス,モデルサイズ,パラメータ効率の3次元について行った。
トレーニングコーパスでは, LMの生成能力を活用し, 非有害なデータセットを生成し, 被曝バイアスを軽減し, キュレートされた事前学習コーパスよりもデータ効率が高いことを示す。
自己生成法は,3分の1のトレーニングコーパスを用いた場合であっても,自動評価と人的評価の両方において,既存のベースラインを一貫して上回ることを示す。
次に, 従来研究されてきたスケールである, 126Mから530B(GPT-3より3倍大きい)までのパラメータサイズで, 除毒膜を包括的に研究した。
私たちはそれを見つけ
一 大型のLMは、同じ訓練前のコーパスを与えられた小さいものと同様の毒性レベルを有する
二 大きなLMは、解毒により多くの努力を必要とする。
また,デトキシ化のためのパラメータ効率のトレーニング手法についても検討する。
LMにおけるアダプタのみのレイヤーの追加とトレーニングは、多くのパラメータを節約するだけでなく、大規模モデルに対するモデル全体の適応よりも毒性とパープレキシティのトレードオフが優れていることを示す。
関連論文リスト
- Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。
本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文 参考訳(メタデータ) (2024-06-11T13:32:11Z) - Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。
この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。
本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文 参考訳(メタデータ) (2024-04-02T18:00:28Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Large GPT-like Models are Bad Babies: A Closer Look at the Relationship
between Linguistic Competence and Psycholinguistic Measures [25.210837736795565]
我々は、BabyLM事前学習コーパスの厳密なバージョンに基づいて、異なるサイズのGPTライクな言語モデルを訓練する。
これら3つの課題に対して,各課題におけるモデルの幅と深さの相違により,LMサイズと性能の正の相関が認められた。
このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-11-08T09:26:27Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale [5.759319006531332]
マスク付き言語モデリング(MLM)を用いた事前学習の利点を1.25Mパラメータのモデルで示す。
スケール法則を100Mパラメータのモデルに拡張し,ダウンスケーリング効果について検討する。
論文 参考訳(メタデータ) (2023-05-26T21:22:10Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。