論文の概要: Compressing Word Embeddings Using Syllables
- arxiv url: http://arxiv.org/abs/2201.04913v1
- Date: Thu, 13 Jan 2022 12:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 20:43:48.929529
- Title: Compressing Word Embeddings Using Syllables
- Title(参考訳): Syllables を用いた単語埋め込みの圧縮
- Authors: Laurent Mertens, Joost Vennekens
- Abstract要約: この研究は、しばしば使われる$n$-gram埋め込みの代わりに、音節埋め込みをサブワード埋め込みとして使用する可能性を検討する。
標準的な英語単語埋め込み評価データセットであるWordSim353とSemEval-2017をオランダ語に翻訳する。
単語の埋め込みと比較すると、性能の80%を保ちながら、20~30倍の小さい英語モデルが得られる。
- 参考スコア(独自算出の注目度): 4.073826298938431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work examines the possibility of using syllable embeddings, instead of
the often used $n$-gram embeddings, as subword embeddings. We investigate this
for two languages: English and Dutch. To this end, we also translated two
standard English word embedding evaluation datasets, WordSim353 and
SemEval-2017, to Dutch. Furthermore, we provide the research community with
data sets of syllabic decompositions for both languages. We compare our
approach to full word and $n$-gram embeddings. Compared to full word
embeddings, we obtain English models that are 20 to 30 times smaller while
retaining 80% of the performance. For Dutch, models are 15 times smaller for
70% performance retention. Although less accurate than the $n$-gram baseline we
used, our models can be trained in a matter of minutes, as opposed to hours for
the $n$-gram approach. We identify a path toward upgrading performance in
future work. All code is made publicly available, as well as our collected
English and Dutch syllabic decompositions and Dutch evaluation set
translations.
- Abstract(参考訳): 本研究は、しばしば使われる$n$-gram組込みの代わりに、音節組込みをサブワード組込みとして使用する可能性を検討する。
これを英語とオランダ語という2つの言語で調べる。
この目的のために、標準英語の単語埋め込み評価データセットである wordsim353 と semeval-2017 をオランダ語に翻訳した。
さらに,研究コミュニティに対して,両言語間の音節分解のデータセットを提供する。
われわれのアプローチをフルワードと$n$-gramの埋め込みと比較する。
単語の埋め込みと比較すると、性能の80%を維持しつつ、20~30倍小さい英語モデルが得られる。
オランダでは、モデルが70%のパフォーマンス維持のために15倍小さい。
私たちが使った$n$-gramベースラインよりも正確ではありませんが、$n$-gramアプローチの時間とは対照的に、モデルのトレーニングは数分で行えます。
今後の作業におけるパフォーマンス向上への道筋を特定する。
すべてのコードは公開されており、収集した英語とオランダ語のシラバスの分解やオランダ語の評価セットの翻訳も利用可能です。
関連論文リスト
- Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - Revisiting Tri-training of Dependency Parsers [10.977756226111348]
依存関係解析のタスクにおいて,三者学習と事前学習による単語埋め込みという2つの半教師あり学習手法を比較した。
言語固有のFastTextとELMoの埋め込みと多言語BERTの埋め込みについて検討する。
事前学習した単語の埋め込みは、トリオトレーニングよりも非ラベルデータの利用が効果的であることがわかったが、この2つのアプローチはうまく組み合わせることができる。
論文 参考訳(メタデータ) (2021-09-16T17:19:05Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Discovering Bilingual Lexicons in Polyglot Word Embeddings [32.53342453685406]
本研究では,多言語単語の埋め込みを生成する多言語コーパスで訓練された1つのスキップグラムモデルを利用する。
本稿では, 比較的単純な近傍サンプリング手法により, バイリンガル辞書を検索できることを示す。
3つのヨーロッパ語対にまたがって、多言語単語の埋め込みは、確かに単語のリッチな意味表現を学習する。
論文 参考訳(メタデータ) (2020-08-31T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。