論文の概要: InfoEntropy Loss to Mitigate Bias of Learning Difficulties for
Generative Language Models
- arxiv url: http://arxiv.org/abs/2310.19531v3
- Date: Fri, 10 Nov 2023 09:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 17:10:41.138707
- Title: InfoEntropy Loss to Mitigate Bias of Learning Difficulties for
Generative Language Models
- Title(参考訳): 生成言語モデルにおける学習困難度軽減のための情報エントロピー損失
- Authors: Zhenpeng Su, Xing Wu, Xue Bai, Zijia Lin, Hui Chen, Guiguang Ding, Wei
Zhou, Songlin Hu
- Abstract要約: 本稿では,頻繁なトークンと頻繁なトークンの不均衡に対処する情報エントロピーロス関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
提案されたInfoEntropy Lossを組み込んだモデルでは、ダウンストリームベンチマークで一貫したパフォーマンス向上が期待できる。
- 参考スコア(独自算出の注目度): 42.758124524703895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative language models are usually pretrained on large text corpus via
predicting the next token (i.e., sub-word/word/phrase) given the previous ones.
Recent works have demonstrated the impressive performance of large generative
language models on downstream tasks. However, existing generative language
models generally neglect an inherent challenge in text corpus during training,
i.e., the imbalance between frequent tokens and infrequent ones. It can lead a
language model to be dominated by common and easy-to-learn tokens, thereby
overlooking the infrequent and difficult-to-learn ones. To alleviate that, we
propose an Information Entropy Loss (InfoEntropy Loss) function. During
training, it can dynamically assess the learning difficulty of a to-be-learned
token, according to the information entropy of the corresponding predicted
probability distribution over the vocabulary. Then it scales the training loss
adaptively, trying to lead the model to focus more on the difficult-to-learn
tokens. On the Pile dataset, we train generative language models at different
scales of 468M, 1.2B, and 6.7B parameters. Experiments reveal that models
incorporating the proposed InfoEntropy Loss can gain consistent performance
improvement on downstream benchmarks.
- Abstract(参考訳): 生成言語モデルは、通常、前のものから次のトークン(サブワード/ワード/フレーズ)を予測することによって、大きなテキストコーパスで事前訓練される。
最近の研究は、下流タスクにおける大規模な生成言語モデルの印象的な性能を実証している。
しかし、既存の生成言語モデルは、訓練中にテキストコーパスに固有の課題、すなわち頻繁なトークンと頻繁なトークンの不均衡を無視している。
これは、言語モデルが一般的で簡単に学習できるトークンに支配され、希少で難解なトークンを見渡すことができる。
そこで我々は,情報エントロピー損失(InfoEntropy Loss)関数を提案する。
学習中,語彙上の予測確率分布の情報エントロピーに応じて,to-be-learnedトークンの学習難易度を動的に評価することができる。
その後、トレーニング損失を適応的にスケーリングし、モデルをより理解の難しいトークンに集中させようとする。
Pileデータセットでは、468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
提案されたInfoEntropy Lossを組み込んだモデルでは、ダウンストリームベンチマークで一貫したパフォーマンス向上が期待できる。
関連論文リスト
- Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Characterizing Learning Curves During Language Model Pre-Training: Learning, Forgetting, and Stability [25.52470575274251]
より長く一貫性のあるテキストを生成するために学習する前に、言語モデルが短い反復句を生成するのを観察する。
個々のトークンは、トレーニング前のランニングで驚くほど一貫性のある、突然の増減または損失の減少を示すことが多い。
より頻繁なトークンは最終段階の低い値に到達し、事前トレーニング実行中の変動が少なく、早期に学習され、事前トレーニング中に「忘れられる」可能性が低い。
論文 参考訳(メタデータ) (2023-08-29T16:24:09Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - A Natural Bias for Language Generation Models [31.44752136404971]
我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。
この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
論文 参考訳(メタデータ) (2022-12-19T18:14:36Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。