論文の概要: Language Detection Engine for Multilingual Texting on Mobile Devices
- arxiv url: http://arxiv.org/abs/2101.03963v1
- Date: Thu, 7 Jan 2021 16:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:40:05.451453
- Title: Language Detection Engine for Multilingual Texting on Mobile Devices
- Title(参考訳): モバイル端末における多言語テキストの言語検出エンジン
- Authors: Sourabh Vasant Gothe, Sourav Ghosh, Sharmila Mani, Guggilla Bhanodai,
Ankur Agarwal, Chandramouli Sanchi
- Abstract要約: 全世界で20億人以上のモバイルユーザーがソフトキーボードで複数の言語を入力している。
単言語キーボードでは、誤訂正された単語の38%が別の言語で有効である。
多言語タイピングのための高速で軽量で正確な言語検出エンジン(LDE)を提案する。
- 参考スコア(独自算出の注目度): 0.415623340386296
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: More than 2 billion mobile users worldwide type in multiple languages in the
soft keyboard. On a monolingual keyboard, 38% of falsely auto-corrected words
are valid in another language. This can be easily avoided by detecting the
language of typed words and then validating it in its respective language.
Language detection is a well-known problem in natural language processing. In
this paper, we present a fast, light-weight and accurate Language Detection
Engine (LDE) for multilingual typing that dynamically adapts to user intended
language in real-time. We propose a novel approach where the fusion of
character N-gram model and logistic regression based selector model is used to
identify the language. Additionally, we present a unique method of reducing the
inference time significantly by parameter reduction technique. We also discuss
various optimizations fabricated across LDE to resolve ambiguity in input text
among the languages with the same character pattern. Our method demonstrates an
average accuracy of 94.5% for Indian languages in Latin script and that of 98%
for European languages on the code-switched data. This model outperforms
fastText by 60.39% and ML-Kit by 23.67% in F1 score for European languages. LDE
is faster on mobile device with an average inference time of 25.91
microseconds.
- Abstract(参考訳): 全世界で20億人以上のモバイルユーザーがソフトキーボードで複数の言語を入力している。
単言語キーボードでは、誤訂正された単語の38%が別の言語で有効である。
これは、型付き語の言語を検出して、それぞれの言語で検証することで容易に回避できる。
言語検出は自然言語処理においてよく知られた問題である。
本稿では,ユーザの意図する言語に動的に適応する多言語型付けのための高速・軽量・高精度言語検出エンジン(lde)を提案する。
本稿では,文字n-gramモデルとロジスティック回帰に基づくセレクタモデルを融合して言語を識別する新しい手法を提案する。
また,パラメータ削減手法により推定時間を大幅に短縮する独自の手法を提案する。
また,同一文字パターンの言語間の入力テキストのあいまいさを解決するため,ldeをまたいだ様々な最適化について検討する。
本手法は,ラテン文字のインド語では平均94.5%,コード変更データでは欧州語では98%の精度を示す。
このモデルはfasttextを60.39%、ml-kitを23.67%上回っている。
LDEは平均推定時間は25.91マイクロ秒のモバイルデバイスでは高速である。
関連論文リスト
- A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Streaming Bilingual End-to-End ASR model using Attention over Multiple
Softmax [6.386371634323785]
本稿では,両言語を単一のニューラルモデルで認識可能な,バイリンガル・エンド・ツー・エンド(E2E)モデリング手法を提案する。
提案モデルでは,自己認識機構によって結合された言語固有のジョイントネットワークを用いて,エンコーダと予測ネットワークを共有する。
論文 参考訳(メタデータ) (2024-01-22T01:44:42Z) - MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection
Benchmark [10.92793962395538]
MultiTuDEは、多言語マシン生成テキスト検出のための新しいベンチマークデータセットである。
11の言語で74,081の認証テキストと機械生成テキストで構成されている。
ゼロショット(統計とブラックボックス)と微調整検出器の性能を比較した。
論文 参考訳(メタデータ) (2023-10-20T15:57:17Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Handling Compounding in Mobile Keyboard Input [7.309321705635677]
本稿では,形態的にリッチな言語におけるモバイルユーザのタイピング体験を改善するためのフレームワークを提案する。
スマートフォンのキーボードは典型的には、入力復号化、修正、予測といった言語モデルに依存している機能をサポートしている。
本手法は, 様々な複合言語において, 単語誤り率を約20%削減することを示す。
論文 参考訳(メタデータ) (2022-01-17T15:28:58Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。