Fugu-MT 論文翻訳(概要): All Word Embeddings from One Embedding

論文の概要: All Word Embeddings from One Embedding

arxiv url: http://arxiv.org/abs/2004.12073v3
Date: Fri, 23 Oct 2020 03:12:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-09 21:16:40.802601
Title: All Word Embeddings from One Embedding
Title（参考訳）: すべての単語が1つの埋め込みから埋め込まれる
Authors: Sho Takase and Sosuke Kobayashi
Abstract要約: 自然言語処理のためのニューラルネットワークベースのモデルでは、パラメータの最大の部分は単語の埋め込みで構成されていることが多い。本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。提案手法であるALONEは,単語固有のが学習不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。
参考スコア（独自算出の注目度）: 23.643059189673473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In neural network-based models for natural language processing (NLP), the largest part of the parameters often consists of word embeddings. Conventional models prepare a large embedding matrix whose size depends on the vocabulary size. Therefore, storing these models in memory and disk storage is costly. In this study, to reduce the total number of parameters, the embeddings for all words are represented by transforming a shared embedding. The proposed method, ALONE (all word embeddings from one), constructs the embedding of a word by modifying the shared embedding with a filter vector, which is word-specific but non-trainable. Then, we input the constructed embedding into a feed-forward neural network to increase its expressiveness. Naively, the filter vectors occupy the same memory size as the conventional embedding matrix, which depends on the vocabulary size. To solve this issue, we also introduce a memory-efficient filter construction approach. We indicate our ALONE can be used as word representation sufficiently through an experiment on the reconstruction of pre-trained word embeddings. In addition, we also conduct experiments on NLP application tasks: machine translation and summarization. We combined ALONE with the current state-of-the-art encoder-decoder model, the Transformer, and achieved comparable scores on WMT 2014 English-to-German translation and DUC 2004 very short summarization with less parameters.
Abstract（参考訳）: ニューラルネットワークによる自然言語処理(NLP)モデルでは、パラメータの最大の部分は単語の埋め込みであることが多い。従来のモデルは、語彙のサイズに依存する大きな埋め込み行列を作成する。したがって、これらのモデルをメモリとディスクストレージに格納することはコストがかかる。本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。提案手法であるALONE (all word embeddings from one) は,単語固有だが訓練不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。そして、構築された埋め込みをフィードフォワードニューラルネットワークに入力し、その表現性を高める。一般に、フィルタベクトルは、語彙サイズに依存する従来の埋め込み行列と同じメモリサイズを占める。この問題を解決するために,メモリ効率のよいフィルタ構築手法も導入する。我々は,事前学習した単語埋め込みの再構築実験を通じて,単語表現として十分に使用できることを示す。さらに,機械翻訳や要約といったNLPアプリケーションタスクについても実験を行った。 ALONEを現在の最先端エンコーダデコーダモデルであるTransformerと組み合わせて、WMT 2014の英語-ドイツ語翻訳とDUC 2004では、パラメータの少ない非常に短い要約を実現した。

関連論文リスト

Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-04T21:47:18Z)
Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection [34.217661429283666]
語彙が大きくなるにつれて、ベクトル空間の次元は増加し、それが膨大なモデルサイズに繋がる。本稿では,単語埋め込み次元の減少について検討する。本稿では,WordFS という機能選択手法を提案する。
論文参考訳（メタデータ） (2024-07-17T06:36:09Z)
2D Matryoshka Sentence Embeddings [11.682642816354418]
textitTwo-dimensional Matryoshka Sentence Embedding (2DMSE)footnote。埋め込みサイズとトランスフォーマー層の両方の弾性設定をサポートし、MRLよりも柔軟性と効率性が高い。実験により, 異なる埋め込みサイズとトランスフォーマー層を動的に支持する上で, 提案モデルの有効性が示された。
論文参考訳（メタデータ） (2024-02-22T18:35:05Z)
Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。過去の研究から,メモリ拡張型自動音声認識モデルを用いた。提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-01-09T10:39:17Z)
OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文参考訳（メタデータ） (2023-11-15T10:40:45Z)
Generative Spoken Language Model based on continuous word-sized audio tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文参考訳（メタデータ） (2023-10-08T16:46:14Z)
Frustratingly Simple Memory Efficiency for Pre-trained Language Models via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文参考訳（メタデータ） (2023-09-15T19:00:00Z)
Towards A Unified View of Sparse Feed-Forward Network in Pretraining Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文参考訳（メタデータ） (2023-05-23T12:28:37Z)
Multi hash embeddings in spaCy [1.6790532021482656]
spaCyは、単語の複数埋め込み表現を生成する機械学習システムである。 SpaCyのデフォルトの埋め込み層は、ハッシュ埋め込み層である。この技術レポートでは、いくつかの歴史を概説し、paCyに埋め込み手法を詳しく紹介します。
論文参考訳（メタデータ） (2022-12-19T06:03:04Z)
HashFormers: Towards Vocabulary-independent Pre-trained Transformers [30.699644290131044]
Transformerベースの事前訓練言語モデルは語彙に依存し、デフォルトで各トークンを対応する埋め込みにマッピングする。本稿では,新しい語彙に依存しない事前学習型トランスであるHashFormersを提案する。
論文参考訳（メタデータ） (2022-10-14T15:39:34Z)
HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文参考訳（メタデータ） (2021-10-12T22:42:31Z)
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文参考訳（メタデータ） (2021-06-23T22:24:14Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)
Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文参考訳（メタデータ） (2020-03-18T13:07:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。