論文の概要: The Role of $n$-gram Smoothing in the Age of Neural Networks
- arxiv url: http://arxiv.org/abs/2403.17240v1
- Date: Mon, 25 Mar 2024 22:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:16:39.629982
- Title: The Role of $n$-gram Smoothing in the Age of Neural Networks
- Title(参考訳): ニューラルネットワーク時代における$n$-gram平滑化の役割
- Authors: Luca Malagutti, Andrius Buinovskij, Anej Svete, Clara Meister, Afra Amini, Ryan Cotterell,
- Abstract要約: 本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。
我々は,幻想的な$n$-gram平滑化手法をニューラルネットワークモデルと互換性のある正規化器に変換するためのフレームワークを考案した。
- 参考スコア(独自算出の注目度): 60.23726773548038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For nearly three decades, language models derived from the $n$-gram assumption held the state of the art on the task. The key to their success lay in the application of various smoothing techniques that served to combat overfitting. However, when neural language models toppled $n$-gram models as the best performers, $n$-gram smoothing techniques became less relevant. Indeed, it would hardly be an understatement to suggest that the line of inquiry into $n$-gram smoothing techniques became dormant. This paper re-opens the role classical $n$-gram smoothing techniques may play in the age of neural language models. First, we draw a formal equivalence between label smoothing, a popular regularization technique for neural language models, and add-$\lambda$ smoothing. Second, we derive a generalized framework for converting \emph{any} $n$-gram smoothing technique into a regularizer compatible with neural language models. Our empirical results find that our novel regularizers are comparable to and, indeed, sometimes outperform label smoothing on language modeling and machine translation.
- Abstract(参考訳): 30年近くにわたって、$n$-gramの仮定から派生した言語モデルは、タスクの最先端を保った。
その成功の鍵は、オーバーフィッティングと戦うための様々なスムーズな技術の適用であった。
しかし、ニューラルネットワークモデルが最高のパフォーマーとして$n$-gramモデルに取って代わると、$n$-gramスムース化技術はより重要視されることはなかった。
実際、$n$-gramの平滑化技術に関する調査の行が休眠状態になったことを示唆するのは、下記の通りである。
本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。
まず、ラベル平滑化、ニューラルネットワークモデルの一般的な正規化手法、および add-$\lambda$平滑化の形式的等価性を描く。
次に,n$-gramスムース化手法をニューラルネットワークモデルに適合する正規化器に変換するための一般化されたフレームワークを導出する。
我々の経験的結果は、我々の新しい正規化器は言語モデリングや機械翻訳において、ラベルのスムーズなスムーズさに匹敵するものであること、そして実際に、時には性能が優れていることを発見した。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - $S^3$ -- Semantic Signal Separation [0.16492989697868893]
ニューラル埋め込み空間における理論駆動型トピックモデリング手法を提案する。
S3$は、トピックを意味空間の独立した軸として概念化し、これらをブラインドソース分離で明らかにする。
我々のアプローチは、最も多種多様な、高度に一貫性のあるトピックを提供し、事前処理を必要とせず、これまでで最速の文脈に敏感なトピックモデルであることが示されている。
論文 参考訳(メタデータ) (2024-06-13T19:43:38Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - LT-LM: a novel non-autoregressive language model for single-shot lattice
rescoring [55.16665077221941]
本稿では,格子全体をモデルへの単一呼び出しで処理する新しいリスコリング手法を提案する。
当社のリコリングポリシーの主な特徴は、新しい非回帰的格子変換言語モデル(LT-LM)です。
論文 参考訳(メタデータ) (2021-04-06T14:06:07Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Investigation of Large-Margin Softmax in Neural Language Modeling [43.51826343967195]
ニューラルネットワークモデルに大マージンを導入することで、パープレキシティが向上し、自動音声認識における単語誤り率が向上するかどうかを検討する。
パープレキシティはわずかに劣化しているものの、大きなマージンソフトマックスを持つニューラル言語モデルでは、標準ソフトマックスベースラインと同様の単語誤り率が得られることがわかった。
論文 参考訳(メタデータ) (2020-05-20T14:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。