論文の概要: A Natural Bias for Language Generation Models
- arxiv url: http://arxiv.org/abs/2212.09686v1
- Date: Mon, 19 Dec 2022 18:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:55:55.015757
- Title: A Natural Bias for Language Generation Models
- Title(参考訳): 言語生成モデルに対する自然なバイアス
- Authors: Clara Meister, Wojciech Stokowiec, Tiago Pimentel, Lei Yu, Laura
Rimell, Adhiguna Kuncoro
- Abstract要約: 言語生成の標準的な確率モデルは、自然言語の多くの意味論や構文規則をまだ学ばない可能性が高い。
ここでは,1グラムの周波数統計を先行知識として反映した別個のモジュールで,効果的にモデルを支持できることを示す。
- 参考スコア(独自算出の注目度): 31.44752136404971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After just a few hundred training updates, a standard probabilistic model for
language generation has likely not yet learnt many semantic or syntactic rules
of natural language, which inherently makes it difficult to estimate the right
probability distribution over next tokens. Yet around this point, these models
have identified a simple, loss-minimising behaviour: to output the unigram
distribution of the target training corpus. The use of such a crude heuristic
raises the question: Rather than wasting precious compute resources and model
capacity for learning this strategy at early training stages, can we initialise
our models with this behaviour? Here, we show that we can effectively endow our
model with a separate module that reflects unigram frequency statistics as
prior knowledge. Standard neural language generation architectures offer a
natural opportunity for implementing this idea: by initialising the bias term
in a model's final linear layer with the log-unigram distribution. Experiments
in neural machine translation demonstrate that this simple technique: (i)
improves learning efficiency; (ii) achieves better overall performance; and
(iii) appears to disentangle strong frequency effects, encouraging the model to
specialise in non-frequency-related aspects of language.
- Abstract(参考訳): ほんの数百のトレーニング更新の後、言語生成の標準的な確率モデルは、自然言語の多くの意味論や構文規則をまだ学ばない可能性が高いため、本質的に次のトークンよりも適切な確率分布を推定することは困難である。
しかし、この時点でこれらのモデルでは、目標トレーニングコーパスのユニグラム分布を出力する、単純な損失最小化動作を特定している。
このような粗末なヒューリスティックの使用は、この戦略を早期のトレーニング段階で学習するために、貴重な計算資源とモデル能力を無駄にするのではなく、この行動でモデルを初期化できるだろうか?
そこで本研究では,一グラムの周波数統計を先行知識として反映した別モジュールを効果的に構築できることを述べる。
モデルの最終線形層におけるバイアス項を対数ユニグラム分布で初期化する。
神経機械翻訳の実験では この単純なテクニックが示されています
(i)学習効率の向上。
(ii)全体的なパフォーマンスが向上し、
(iii) 強い周波数効果を弱め,非周波数関連言語に特化するようモデルに促す。
関連論文リスト
- Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing [6.726629754291751]
本稿では,言語モデルの周波数バイアスを定量化する手法を提案する。
そこで本研究では,事前学習中のトークン表現に対して構文的事前表現を誘導することにより,言語モデルの周波数バイアスを低減する手法を提案する。
このアプローチにより、頻度の低い英語トークンの性能が向上し、異方性も低下する。
論文 参考訳(メタデータ) (2024-10-15T10:09:57Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。