論文の概要: MorphTE: Injecting Morphology in Tensorized Embeddings
- arxiv url: http://arxiv.org/abs/2210.15379v1
- Date: Thu, 27 Oct 2022 12:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:43:32.108195
- Title: MorphTE: Injecting Morphology in Tensorized Embeddings
- Title(参考訳): MorphTE: テンソル化インプラントにモルフォロジーを注入する
- Authors: Guobing Gan, Peng Zhang, Sunzhu Li, Xiuqing Lu, Benyou Wang
- Abstract要約: 形態素強化型単語埋め込み圧縮法(MorphTE)を提案する。
MorphTE は、テンソル積を通じてその形態素ベクトルの絡み合った形式として埋め込みを表現し、埋め込みの学習に事前の意味的知識と文法的知識を注入する。
異なる言語の4つの翻訳データセットに対する実験結果から、MorphTEは単語の埋め込みパラメータを約20倍の性能損失なく表現できることが示されている。
- 参考スコア(独自算出の注目度): 8.875651477237016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of deep learning, word embeddings are essential when dealing with
text tasks. However, storing and accessing these embeddings requires a large
amount of space. This is not conducive to the deployment of these models on
resource-limited devices. Combining the powerful compression capability of
tensor products, we propose a word embedding compression method with
morphological augmentation, Morphologically-enhanced Tensorized Embeddings
(MorphTE). A word consists of one or more morphemes, the smallest units that
bear meaning or have a grammatical function. MorphTE represents a word
embedding as an entangled form of its morpheme vectors via the tensor product,
which injects prior semantic and grammatical knowledge into the learning of
embeddings. Furthermore, the dimensionality of the morpheme vector and the
number of morphemes are much smaller than those of words, which greatly reduces
the parameters of the word embeddings. We conduct experiments on tasks such as
machine translation and question answering. Experimental results on four
translation datasets of different languages show that MorphTE can compress word
embedding parameters by about 20 times without performance loss and
significantly outperforms related embedding compression methods.
- Abstract(参考訳): ディープラーニングの時代においては、テキストタスクを扱うには単語の埋め込みが不可欠である。
しかし、これらの埋め込みの保存とアクセスには大量のスペースが必要です。
これは、リソース制限されたデバイスへのこれらのモデルのデプロイには影響しない。
テンソル製品の強力な圧縮能力を組み合わせることで,モルフォロジー強化型テンソル化エンベディング (MorphTE) を用いた単語埋め込み圧縮手法を提案する。
単語は1つ以上の形態素から成り、意味を持つ最小の単位または文法的な機能を持つ。
MorphTE は、テンソル積を通じてその形態素ベクトルの絡み合った形式として埋め込みを表現し、埋め込みの学習に事前の意味的知識と文法的知識を注入する。
さらに、モーフィムベクトルの次元性とモーフィムの数は単語の次元よりもはるかに小さく、単語埋め込みのパラメータを大幅に減少させる。
機械翻訳や質問応答などのタスクについて実験を行う。
異なる言語の4つの翻訳データセットの実験結果は、モーフィトが単語埋め込みパラメータをパフォーマンスの損失なしに約20倍圧縮できることを示し、関連する埋め込み圧縮法を著しく上回っている。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic
Interpretability: A Case Study on Othello-GPT [59.245414547751636]
本稿では,アクティベーションパッチに代わる回路発見フレームワークを提案する。
当社のフレームワークはアウト・オブ・ディストリビューション(out-of-distribution)に悩まされており、複雑さの観点からより効率的であることが証明されています。
我々はOthelloという名前の合成タスクで訓練された小さなトランスフォーマーを掘り下げ、その内部に人間に理解可能な微細な回路がいくつかある。
論文 参考訳(メタデータ) (2024-02-19T15:04:53Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morph Call: Probing Morphosyntactic Content of Multilingual Transformers [2.041108289731398]
Morph Callは、異なる形態を持つ4つのインド・ヨーロッパ語(英語、フランス語、ドイツ語、ロシア語)の46の探索タスクからなるスイートである。
我々は4つの多言語トランスのモルフォシンタクティックな内容を分析するために,ニューロン,層および表現レベルのイントロスペクション技術の組み合わせを用いる。
その結果, POSタグの微調整により, 探索性能が向上し, モデル間でのモルフォシンタクティック知識の分配方法が変化することが示唆された。
論文 参考訳(メタデータ) (2021-04-26T19:53:00Z) - Evaluation of Morphological Embeddings for the Russian Language [0.0]
SkipgramObjectiveで訓練されたモルフォロジーベースの埋め込みは、既存の埋め込みモデル-FastTextを上回っません。
より複雑な、しかしモルフォロジーを知らないモデル、BERTは、単語のモルフォロジーの理解を必要とするタスクで大幅に大きなパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2021-03-11T11:59:11Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z) - All Word Embeddings from One Embedding [23.643059189673473]
自然言語処理のためのニューラルネットワークベースのモデルでは、パラメータの最大の部分は単語の埋め込みで構成されていることが多い。
本研究では,パラメータの総数を削減するために,すべての単語に対する埋め込みを共有埋め込みを変換することによって表現する。
提案手法であるALONEは,単語固有のが学習不能なフィルタベクトルを用いて,単語の埋め込みを改良し,単語の埋め込みを構築する。
論文 参考訳(メタデータ) (2020-04-25T07:38:08Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。