論文の概要: A Natural Bias for Language Generation Models
- arxiv url: http://arxiv.org/abs/2212.09686v2
- Date: Fri, 23 Jun 2023 05:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 17:34:52.226629
- Title: A Natural Bias for Language Generation Models
- Title(参考訳): 言語生成モデルに対する自然なバイアス
- Authors: Clara Meister, Wojciech Stokowiec, Tiago Pimentel, Lei Yu, Laura
Rimell, Adhiguna Kuncoro
- Abstract要約: 我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。
この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
- 参考スコア(独自算出の注目度): 31.44752136404971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After just a few hundred training updates, a standard probabilistic model for
language generation has likely not yet learnt many semantic or syntactic rules
of natural language, making it difficult to estimate the probability
distribution over next tokens. Yet around this point, these models have
identified a simple, loss-minimising behaviour: to output the unigram
distribution of the target training corpus. The use of such a heuristic raises
the question: Can we initialise our models with this behaviour and save
precious compute resources and model capacity? Here we show that we can
effectively endow standard neural language generation models with a separate
module that reflects unigram frequency statistics as prior knowledge, simply by
initialising the bias term in a model's final linear layer with the log-unigram
distribution. We use neural machine translation as a test bed for this simple
technique and observe that it: (i) improves learning efficiency; (ii) achieves
better overall performance; and perhaps most importantly (iii) appears to
disentangle strong frequency effects by encouraging the model to specialise in
non-frequency-related aspects of language.
- Abstract(参考訳): ほんの数百のトレーニング更新の後、言語生成の標準確率モデルは、自然言語の多くの意味論や構文規則をまだ学ばない可能性が高いため、次のトークンの確率分布を推定することは困難である。
しかし、この時点でこれらのモデルでは、目標トレーニングコーパスのユニグラム分布を出力する、単純な損失最小化動作を特定している。
このようなヒューリスティックを使用することで、モデルの初期化と、貴重な計算リソースとモデルキャパシティの節約が可能になるか、という疑問が持ち上がります。
ここでは,モデルの最終線形層におけるバイアス項をlog-unigram分布で初期化するだけで,ユニグラム頻度統計を事前知識として反映するモジュールを分離して,標準ニューラルネットワーク生成モデルに効果的に付与できることを示す。
私たちはこの簡単なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、それを観察します。
(i)学習効率の向上。
(ii)全体的な性能が向上し、おそらく最も重要なことは
(iii)は,非周波数関連言語に特化するようモデルに促すことにより,強い周波数効果を歪めているように見える。
関連論文リスト
- Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing [6.726629754291751]
本稿では,言語モデルの周波数バイアスを定量化する手法を提案する。
そこで本研究では,事前学習中のトークン表現に対して構文的事前表現を誘導することにより,言語モデルの周波数バイアスを低減する手法を提案する。
このアプローチにより、頻度の低い英語トークンの性能が向上し、異方性も低下する。
論文 参考訳(メタデータ) (2024-10-15T10:09:57Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。