論文の概要: All Word Embeddings from One Embedding
- arxiv url: http://arxiv.org/abs/2004.12073v3
- Date: Fri, 23 Oct 2020 03:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 21:16:40.802601
- Title: All Word Embeddings from One Embedding
- Title(参考訳): すべての単語が1つの埋め込みから埋め込まれる
- Authors: Sho Takase and Sosuke Kobayashi
- Abstract要約: 自然言語処理のためのニューラルネットワークベースのモデルでは、パラメータの最大の部分は単語の埋め込みで構成されていることが多い。
本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。
提案手法であるALONEは,単語固有のが学習不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。
- 参考スコア(独自算出の注目度): 23.643059189673473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In neural network-based models for natural language processing (NLP), the
largest part of the parameters often consists of word embeddings. Conventional
models prepare a large embedding matrix whose size depends on the vocabulary
size. Therefore, storing these models in memory and disk storage is costly. In
this study, to reduce the total number of parameters, the embeddings for all
words are represented by transforming a shared embedding. The proposed method,
ALONE (all word embeddings from one), constructs the embedding of a word by
modifying the shared embedding with a filter vector, which is word-specific but
non-trainable. Then, we input the constructed embedding into a feed-forward
neural network to increase its expressiveness. Naively, the filter vectors
occupy the same memory size as the conventional embedding matrix, which depends
on the vocabulary size. To solve this issue, we also introduce a
memory-efficient filter construction approach. We indicate our ALONE can be
used as word representation sufficiently through an experiment on the
reconstruction of pre-trained word embeddings. In addition, we also conduct
experiments on NLP application tasks: machine translation and summarization. We
combined ALONE with the current state-of-the-art encoder-decoder model, the
Transformer, and achieved comparable scores on WMT 2014 English-to-German
translation and DUC 2004 very short summarization with less parameters.
- Abstract(参考訳): ニューラルネットワークによる自然言語処理(NLP)モデルでは、パラメータの最大の部分は単語の埋め込みであることが多い。
従来のモデルは、語彙のサイズに依存する大きな埋め込み行列を作成する。
したがって、これらのモデルをメモリとディスクストレージに格納することはコストがかかる。
本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。
提案手法であるALONE (all word embeddings from one) は,単語固有だが訓練不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。
そして、構築された埋め込みをフィードフォワードニューラルネットワークに入力し、その表現性を高める。
一般に、フィルタベクトルは、語彙サイズに依存する従来の埋め込み行列と同じメモリサイズを占める。
この問題を解決するために,メモリ効率のよいフィルタ構築手法も導入する。
我々は,事前学習した単語埋め込みの再構築実験を通じて,単語表現として十分に使用できることを示す。
さらに,機械翻訳や要約といったNLPアプリケーションタスクについても実験を行った。
ALONEを現在の最先端エンコーダデコーダモデルであるTransformerと組み合わせて、WMT 2014の英語-ドイツ語翻訳とDUC 2004では、パラメータの少ない非常に短い要約を実現した。
関連論文リスト
- Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection [34.217661429283666]
語彙が大きくなるにつれて、ベクトル空間の次元は増加し、それが膨大なモデルサイズに繋がる。
本稿では,単語埋め込み次元の減少について検討する。
本稿では,WordFS という機能選択手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T06:36:09Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - Frustratingly Simple Memory Efficiency for Pre-trained Language Models
via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。
本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。
このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文 参考訳(メタデータ) (2023-09-15T19:00:00Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Multi hash embeddings in spaCy [1.6790532021482656]
spaCyは、単語の複数埋め込み表現を生成する機械学習システムである。
SpaCyのデフォルトの埋め込み層は、ハッシュ埋め込み層である。
この技術レポートでは、いくつかの歴史を概説し、paCyに埋め込み手法を詳しく紹介します。
論文 参考訳(メタデータ) (2022-12-19T06:03:04Z) - HashFormers: Towards Vocabulary-independent Pre-trained Transformers [30.699644290131044]
Transformerベースの事前訓練言語モデルは語彙に依存し、デフォルトで各トークンを対応する埋め込みにマッピングする。
本稿では,新しい語彙に依存しない事前学習型トランスであるHashFormersを提案する。
論文 参考訳(メタデータ) (2022-10-14T15:39:34Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。