論文の概要: Residual Learning of Neural Text Generation with $n$-gram Language Model
- arxiv url: http://arxiv.org/abs/2210.14431v1
- Date: Wed, 26 Oct 2022 02:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:01:25.962127
- Title: Residual Learning of Neural Text Generation with $n$-gram Language Model
- Title(参考訳): $n$-gram言語モデルを用いたニューラルテキスト生成の残差学習
- Authors: Huayang Li, Deng Cai, Jin Xu, Taro Watanabe
- Abstract要約: 我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
- 参考スコア(独自算出の注目度): 41.26228768053928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: $N$-gram language models (LM) have been largely superseded by neural LMs as
the latter exhibits better performance. However, we find that $n$-gram models
can achieve satisfactory performance on a large proportion of testing cases,
indicating they have already captured abundant knowledge of the language with
relatively low computational cost. With this observation, we propose to learn a
neural LM that fits the residual between an $n$-gram LM and the real-data
distribution. The combination of $n$-gram and neural LMs not only allows the
neural part to focus on the deeper understanding of language but also provides
a flexible way to customize an LM by switching the underlying $n$-gram model
without changing the neural model. Experimental results on three typical
language tasks (i.e., language modeling, machine translation, and
summarization) demonstrate that our approach attains additional performance
gains over popular standalone neural models consistently. We also show that our
approach allows for effective domain adaptation by simply switching to a
domain-specific $n$-gram model, without any extra training. Our code is
released at https://github.com/ghrua/NgramRes.
- Abstract(参考訳): N$-gram言語モデル(LM)は、より優れた性能を示すため、ニューラルなLMに取って代わられている。
しかし,$n$-gramモデルでは,比較的計算コストの低い言語知識を既に獲得していることから,多数のテストケースにおいて良好な性能が得られることがわかった。
この観察により,n$-gram lmと実データ分布の間の残差に適合するニューラルネットワークlmを学習することを提案する。
n$-gramとneural lmsの組み合わせにより、ニューラルネットワークは言語をより深く理解することに集中できるだけでなく、ニューラルモデルを変更することなく基礎となる$n$-gramモデルを切り替えることで、lmをカスタマイズするための柔軟な方法を提供する。
3つの典型的な言語タスク(言語モデリング、機械翻訳、要約)に関する実験結果から、我々のアプローチは、一般的なスタンドアロンニューラルネットワークモデルよりも、継続的にパフォーマンスが向上することを示した。
また、本手法はドメイン固有の$n$-gramモデルに切り替えるだけで、余分なトレーニングをすることなく、効果的なドメイン適応を可能にすることを示す。
私たちのコードはhttps://github.com/ghrua/ngramresでリリースしています。
関連論文リスト
- Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - The Role of $n$-gram Smoothing in the Age of Neural Networks [60.23726773548038]
本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。
我々は,任意の$n$-gram平滑化手法をニューラルネットワークモデルと互換性のある正規化器に変換するためのフレームワークを導出する。
論文 参考訳(メタデータ) (2024-03-25T22:42:19Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Why are state-space models more expressive than $n$-gram models? [51.823427608117626]
我々は、$n$-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築した。
我々の証明は、SSMが記憶能力の新たな理論的結果を用いて$n$-gramルールをエンコードする方法を示している。
我々は、$n$-gramルールから生成された小さなデータセットで実験を行い、フレームワークをどのように適用できるかを示します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。