論文の概要: Lightweight Adaptation of Neural Language Models via Subspace Embedding
- arxiv url: http://arxiv.org/abs/2308.08688v1
- Date: Wed, 16 Aug 2023 22:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 18:33:04.638802
- Title: Lightweight Adaptation of Neural Language Models via Subspace Embedding
- Title(参考訳): 部分空間埋め込みによるニューラルネットワークモデルの軽量適応
- Authors: Amit Kumar Jaiswal, Haiming Liu
- Abstract要約: 本稿では,学習前の言語モデルのメモリフットプリントを最大4%の精度で削減する,新しいコンパクトな埋め込み構造を提案する。
サブスペース埋め込みは、XNLIとGLUEベンチマークスイートの言語モデルのオリジナルの埋め込みと比較して99.8%を超える圧縮率を達成する。
- 参考スコア(独自算出の注目度): 3.2634122554914002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional neural word embeddings are usually dependent on a richer
diversity of vocabulary. However, the language models recline to cover major
vocabularies via the word embedding parameters, in particular, for multilingual
language models that generally cover a significant part of their overall
learning parameters. In this work, we present a new compact embedding structure
to reduce the memory footprint of the pre-trained language models with a
sacrifice of up to 4% absolute accuracy. The embeddings vectors reconstruction
follows a set of subspace embeddings and an assignment procedure via the
contextual relationship among tokens from pre-trained language models. The
subspace embedding structure calibrates to masked language models, to evaluate
our compact embedding structure on similarity and textual entailment tasks,
sentence and paraphrase tasks. Our experimental evaluation shows that the
subspace embeddings achieve compression rates beyond 99.8% in comparison with
the original embeddings for the language models on XNLI and GLUE benchmark
suites.
- Abstract(参考訳): 伝統的なニューラルワードの埋め込みは通常、語彙の多様性に依存する。
しかし、言語モデルは、特に、一般的に学習パラメータの大部分をカバーする多言語モデルにおいて、単語埋め込みパラメータを介して主要な語彙をカバーしている。
本稿では,事前学習した言語モデルのメモリフットプリントを最大4%の絶対精度で削減する,新しいコンパクト組込み構造を提案する。
埋め込みベクトルの再構成は、事前訓練された言語モデルからのトークン間のコンテキスト関係によるサブスペース埋め込みと代入手順のセットに従う。
部分空間埋め込み構造はマスキング言語モデルに適合し,類似性や文の包含タスク,文およびパラフレーズタスクに関するコンパクト組込み構造を評価する。
実験により,XNLI および GLUE ベンチマークスイートにおける言語モデルのオリジナルの埋め込みと比較して,部分空間の埋め込みが99.8%を超える圧縮率を達成することが示された。
関連論文リスト
- Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。
例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文 参考訳(メタデータ) (2024-08-26T16:29:13Z) - Embedding structure matters: Comparing methods to adapt multilingual
vocabularies to new languages [20.17308477850864]
事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。
本稿では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T04:27:18Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Reranking Machine Translation Hypotheses with Structured and Web-based
Language Models [11.363601836199331]
N-best Rescoringには2つの構造化言語モデルが適用される。
これらの言語モデルの組み合わせにより、BLEUのスコアはブラインドテストセットで完全に1.6%まで上昇する。
論文 参考訳(メタデータ) (2021-04-25T22:09:03Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank [46.626315158735615]
事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練されたデータの制限のため、すべての言語品種に等しく適用されない。
このことは、ラベル付き未ラベルデータがモノリンガルモデルを効果的に訓練するにはあまりに限られている、これらのモデルに馴染みのない言語多様体にとっての課題である。
本稿では,低リソース環境に多言語モデルを適用するために,言語固有の事前学習と語彙拡張の利用を提案する。
論文 参考訳(メタデータ) (2020-09-29T16:12:52Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。