論文の概要: Handling Compounding in Mobile Keyboard Input
- arxiv url: http://arxiv.org/abs/2201.06469v1
- Date: Mon, 17 Jan 2022 15:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 08:45:57.855633
- Title: Handling Compounding in Mobile Keyboard Input
- Title(参考訳): モバイルキーボード入力における処理複合化
- Authors: Andreas Kabel, Keith Hall, Tom Ouyang, David Rybach, Daan van Esch,
Fran\c{c}oise Beaufays
- Abstract要約: 本稿では,形態的にリッチな言語におけるモバイルユーザのタイピング体験を改善するためのフレームワークを提案する。
スマートフォンのキーボードは典型的には、入力復号化、修正、予測といった言語モデルに依存している機能をサポートしている。
本手法は, 様々な複合言語において, 単語誤り率を約20%削減することを示す。
- 参考スコア(独自算出の注目度): 7.309321705635677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a framework to improve the typing experience of mobile
users in morphologically rich languages. Smartphone keyboards typically support
features such as input decoding, corrections and predictions that all rely on
language models. For latency reasons, these operations happen on device, so the
models are of limited size and cannot easily cover all the words needed by
users for their daily tasks, especially in morphologically rich languages. In
particular, the compounding nature of Germanic languages makes their vocabulary
virtually infinite. Similarly, heavily inflecting and agglutinative languages
(e.g. Slavic, Turkic or Finno-Ugric languages) tend to have much larger
vocabularies than morphologically simpler languages, such as English or
Mandarin. We propose to model such languages with automatically selected
subword units annotated with what we call binding types, allowing the decoder
to know when to bind subword units into words. We show that this method brings
around 20% word error rate reduction in a variety of compounding languages.
This is more than twice the improvement we previously obtained with a more
basic approach, also described in the paper.
- Abstract(参考訳): 本稿では,形態的に豊かな言語におけるモバイルユーザのタイピング体験を改善するためのフレームワークを提案する。
スマートフォンのキーボードは通常、入力デコード、修正、予測といった言語モデルに依存する機能をサポートしている。
レイテンシの理由から、これらの操作はデバイス上で実行されるため、モデルのサイズは限られており、特に形態学的にリッチな言語では、日々のタスクに必要なすべての単語を簡単にカバーできない。
特にゲルマン語の複雑な性質は、語彙を事実上無限にしている。
同様に、多言語(スラヴ語、トルコ語、フィンノ・ウグリ語など)は、英語やマンダリンのような形態学的に単純な言語よりもはるかに大きい語彙を持つ傾向がある。
そこで本稿では,自動選択したサブワード単位にバインディングタイプを付加した言語をモデル化し,サブワード単位を単語にバインドするタイミングをデコーダが把握できるようにする。
本手法は,様々な複合言語において約20%の単語誤り率削減をもたらすことを示す。
これは、我々が以前入手した改善の2倍以上の基本的なアプローチである、と論文で述べられている。
関連論文リスト
- IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages? [14.77467551053299]
トランスフォーマーベースのモデルは自然言語処理の分野に革命をもたらした。
入力テキストの摂動に直面する言語特性の符号化におけるこれらのモデルはどの程度堅牢か?
本稿では,13の摂動にまたがる8つの言語特性に対して,符号化能力とロバスト性に関する類似の疑問を6つのIndic言語で検討する。
論文 参考訳(メタデータ) (2024-10-03T15:50:08Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。
文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。
我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文 参考訳(メタデータ) (2023-05-17T14:17:57Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Neural Polysynthetic Language Modelling [15.257624461339867]
高リソース言語では、一般的なアプローチは、共通の根の形態的固有の変種を、完全に独立した単語タイプとして扱うことである。
これは、根あたりの屈折が限られており、大多数が十分な大きさのコーパスに現れると仮定する。
4つの多義語に対する言語モデリング,機械翻訳,テキスト予測の現状について検討する。
論文 参考訳(メタデータ) (2020-05-11T22:57:04Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。