論文の概要: Understanding Pure Character-Based Neural Machine Translation: The Case
of Translating Finnish into English
- arxiv url: http://arxiv.org/abs/2011.03469v1
- Date: Fri, 6 Nov 2020 16:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:59:48.835264
- Title: Understanding Pure Character-Based Neural Machine Translation: The Case
of Translating Finnish into English
- Title(参考訳): 純粋文字に基づくニューラルマシン翻訳の理解:フィンランド語を英語に翻訳する場合
- Authors: Gongbo Tang, Rico Sennrich, Joakim Nivre
- Abstract要約: 近年の研究では、より深い文字ベースのニューラルネットワーク翻訳(NMT)モデルがサブワードベースのモデルより優れていることが示されている。
本稿では,フィンランド語を英語に翻訳する場合の純粋文字モデルについて検討する。
単語レベルの情報は1文字ではなく文字列全体に分散しており、異なる位置の文字が言語知識の学習において異なる役割を担っていることを実証する。
- 参考スコア(独自算出の注目度): 39.944507425932244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that deeper character-based neural machine translation
(NMT) models can outperform subword-based models. However, it is still unclear
what makes deeper character-based models successful. In this paper, we conduct
an investigation into pure character-based models in the case of translating
Finnish into English, including exploring the ability to learn word senses and
morphological inflections and the attention mechanism. We demonstrate that
word-level information is distributed over the entire character sequence rather
than over a single character, and characters at different positions play
different roles in learning linguistic knowledge. In addition, character-based
models need more layers to encode word senses which explains why only deeper
models outperform subword-based models. The attention distribution pattern
shows that separators attract a lot of attention and we explore a sparse
word-level attention to enforce character hidden states to capture the full
word-level information. Experimental results show that the word-level attention
with a single head results in 1.2 BLEU points drop.
- Abstract(参考訳): 近年の研究では、より深い文字ベースのニューラルネットワーク翻訳(NMT)モデルがサブワードベースのモデルを上回ることが示されている。
しかし、なぜより深い文字ベースのモデルが成功するのかはまだ不明である。
本稿では,フィンランド語を英語に翻訳する場合の純粋文字ベースモデルの検討を行い,単語の感覚や形態的変形,注意機構を学習する能力について検討する。
単語レベルの情報は1文字ではなく文字列全体に分散しており、異なる位置の文字が言語知識の学習において異なる役割を担っていることを示す。
さらに、文字ベースのモデルでは、単語感覚をエンコードするためにより多くのレイヤが必要である。
注意分散パターンは,セパレータが多くの注目を集めていることを示すとともに,文字隠された状態に対して,単語レベルの情報を完全に捉えるために,少なからぬ単語レベルの注意力を求める。
実験の結果,単頭で単語レベルの注目度が1.2 bleuポイント低下することがわかった。
関連論文リスト
- Learning Mutually Informed Representations for Characters and Subwords [29.43428615637264]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
本稿では,テキスト分類,エンティティ認識,POSタグ付けタスクについて評価する。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - Learning to Abstract with Nonparametric Variational Information
Bottleneck [13.330819521142065]
同じモデルの異なる層で異なる抽象レベルに圧縮する方法を学ぶことができる新しい言語表現モデルを導入する。
モデル内のレイヤは抽象化のレベルの増加に対応し、それらの表現が言語的により情報化されていることが分かりました。
論文 参考訳(メタデータ) (2023-10-26T10:04:31Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - Models In a Spelling Bee: Language Models Implicitly Learn the Character
Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。
モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文 参考訳(メタデータ) (2021-08-25T11:48:05Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。