論文の概要: Understanding Pure Character-Based Neural Machine Translation: The Case
of Translating Finnish into English
- arxiv url: http://arxiv.org/abs/2011.03469v1
- Date: Fri, 6 Nov 2020 16:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:59:48.835264
- Title: Understanding Pure Character-Based Neural Machine Translation: The Case
of Translating Finnish into English
- Title(参考訳): 純粋文字に基づくニューラルマシン翻訳の理解:フィンランド語を英語に翻訳する場合
- Authors: Gongbo Tang, Rico Sennrich, Joakim Nivre
- Abstract要約: 近年の研究では、より深い文字ベースのニューラルネットワーク翻訳(NMT)モデルがサブワードベースのモデルより優れていることが示されている。
本稿では,フィンランド語を英語に翻訳する場合の純粋文字モデルについて検討する。
単語レベルの情報は1文字ではなく文字列全体に分散しており、異なる位置の文字が言語知識の学習において異なる役割を担っていることを実証する。
- 参考スコア(独自算出の注目度): 39.944507425932244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that deeper character-based neural machine translation
(NMT) models can outperform subword-based models. However, it is still unclear
what makes deeper character-based models successful. In this paper, we conduct
an investigation into pure character-based models in the case of translating
Finnish into English, including exploring the ability to learn word senses and
morphological inflections and the attention mechanism. We demonstrate that
word-level information is distributed over the entire character sequence rather
than over a single character, and characters at different positions play
different roles in learning linguistic knowledge. In addition, character-based
models need more layers to encode word senses which explains why only deeper
models outperform subword-based models. The attention distribution pattern
shows that separators attract a lot of attention and we explore a sparse
word-level attention to enforce character hidden states to capture the full
word-level information. Experimental results show that the word-level attention
with a single head results in 1.2 BLEU points drop.
- Abstract(参考訳): 近年の研究では、より深い文字ベースのニューラルネットワーク翻訳(NMT)モデルがサブワードベースのモデルを上回ることが示されている。
しかし、なぜより深い文字ベースのモデルが成功するのかはまだ不明である。
本稿では,フィンランド語を英語に翻訳する場合の純粋文字ベースモデルの検討を行い,単語の感覚や形態的変形,注意機構を学習する能力について検討する。
単語レベルの情報は1文字ではなく文字列全体に分散しており、異なる位置の文字が言語知識の学習において異なる役割を担っていることを示す。
さらに、文字ベースのモデルでは、単語感覚をエンコードするためにより多くのレイヤが必要である。
注意分散パターンは,セパレータが多くの注目を集めていることを示すとともに,文字隠された状態に対して,単語レベルの情報を完全に捉えるために,少なからぬ単語レベルの注意力を求める。
実験の結果,単頭で単語レベルの注目度が1.2 bleuポイント低下することがわかった。
関連論文リスト
- Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs [0.873811641236639]
本稿では,ニューラルネットワークモデル層の内部言語特性を層単位で探索する新しい復号探索手法を提案する。
言語モデルを脳として扱い、その表現をニューラルアクティベーションとして扱うことにより、中間層の表現から最小対の文法ラベルをデコードする。
論文 参考訳(メタデータ) (2024-03-26T00:56:06Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - Learning to Abstract with Nonparametric Variational Information
Bottleneck [13.330819521142065]
同じモデルの異なる層で異なる抽象レベルに圧縮する方法を学ぶことができる新しい言語表現モデルを導入する。
モデル内のレイヤは抽象化のレベルの増加に対応し、それらの表現が言語的により情報化されていることが分かりました。
論文 参考訳(メタデータ) (2023-10-26T10:04:31Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - Models In a Spelling Bee: Language Models Implicitly Learn the Character
Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。
モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文 参考訳(メタデータ) (2021-08-25T11:48:05Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。