論文の概要: Fusing Sentence Embeddings Into LSTM-based Autoregressive Language
Models
- arxiv url: http://arxiv.org/abs/2208.02402v2
- Date: Fri, 5 Aug 2022 05:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 10:28:41.115654
- Title: Fusing Sentence Embeddings Into LSTM-based Autoregressive Language
Models
- Title(参考訳): LSTMに基づく自己回帰型言語モデルへのFusing文埋め込み
- Authors: Vil\'em Zouhar, Marius Mosbach, Dietrich Klakow
- Abstract要約: 本稿では,プレフィックス埋め込みを用いたLSTMに基づく自己回帰言語モデルを提案する。
融合は、異なるドメインからのデータセットへの転送後に保存される難易度(16.74$rightarrow$ 15.80)を確実に低下させるのに役立つ。
また,次の単語推定値と人間の読解時間とを相関させることにより,最も優れた融合モデルの評価を行った。
- 参考スコア(独自算出の注目度): 20.24851041248274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although masked language models are highly performant and widely adopted by
NLP practitioners, they can not be easily used for autoregressive language
modelling (next word prediction and sequence probability estimation). We
present an LSTM-based autoregressive language model which uses prefix
embeddings (from a pretrained masked language model) via fusion (e.g.
concatenation) to obtain a richer context representation for language
modelling. We find that fusion helps reliably in lowering the perplexity (16.74
$\rightarrow$ 15.80), which is even preserved after a transfer to a dataset
from a different domain than the training data. We also evaluate the
best-performing fusion model by correlating its next word surprisal estimates
with human reading times. Contradicting our expectation, and despite the
improvement in perplexity overall, the correlation remains the same as for the
baseline model. Lastly, while we focus on language models pre-trained on text
as the sources for the fusion, our approach can be possibly extended to fuse
any information represented as a fixed-size vector into an auto-regressive
language model. These include e.g. sentence external information retrieved for
a knowledge base or representations of multi-modal encoders.
- Abstract(参考訳): マスク付き言語モデルは非常に高性能で、NLP実践者によって広く採用されているが、自動回帰言語モデリング(次の単語予測とシーケンス確率推定)では簡単には利用できない。
LSTMに基づく自己回帰型言語モデルを提案する。このモデルでは,プレフィックス埋め込み(事前訓練されたマスク付き言語モデルから)を融合(例えば結合)して,言語モデリングのためのよりリッチなコンテキスト表現を得る。
融合は、トレーニングデータとは異なるドメインからデータセットに転送した後に保存される難易度(16.74$\rightarrow$ 15.80)を確実に低下させるのに役立つ。
また,次の単語超越推定と人間の読解時間とを関連付けることで,最もパフォーマンスの高い融合モデルを評価する。
予想とは対照的に、全体的な複雑度の改善にもかかわらず、相関関係はベースラインモデルと同じである。
最後に、融合の源泉としてテキストに事前学習した言語モデルにフォーカスしながら、固定サイズのベクトルとして表現された情報を自動回帰言語モデルに融合する手法を拡張できるかもしれない。
例えば、知識ベースやマルチモーダルエンコーダの表現のために検索された文外部情報を含む。
関連論文リスト
- Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。
本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:12:34Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Efficient Training of Language Models to Fill in the Middle [17.118891860985123]
自動回帰言語モデルは、データセットに直接的な変換を適用した後、テキストを埋めることを学ぶことができる。
FIMモデルのトレーニングには、デフォルト設定の強い設定とベストプラクティスを規定するために、これらのアブリケーションを使用します。
私たちはAPIのベストプラクティスでトレーニングされた最高のインフィルモデルをリリースし、将来の研究を支援するためにインフィルベンチマークをリリースしました。
論文 参考訳(メタデータ) (2022-07-28T17:40:47Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval [15.902630454568811]
本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。
翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
論文 参考訳(メタデータ) (2021-09-07T00:33:14Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。