論文の概要: Joint Transformer/RNN Architecture for Gesture Typing in Indic Languages
- arxiv url: http://arxiv.org/abs/2203.14049v1
- Date: Sat, 26 Mar 2022 11:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 13:46:42.429013
- Title: Joint Transformer/RNN Architecture for Gesture Typing in Indic Languages
- Title(参考訳): 対話型言語におけるジェスチャタイピングのための共同変換器/RNNアーキテクチャ
- Authors: Emil Biju, Anirudh Sriram, Mitesh M. Khapra, Pratyush Kumar
- Abstract要約: この作業は、Indic言語でのジェスチャータイピングをサポートするキーボードの開発を目的としている。
7つのIndic言語から193,658語のキーボードトレースを含むデータセットを作成する。
第2に、これらの言語にまたがるウィキデータから104,412の英印字ペアをキュレートする。
- 参考スコア(独自算出の注目度): 17.051352821564002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gesture typing is a method of typing words on a touch-based keyboard by
creating a continuous trace passing through the relevant keys. This work is
aimed at developing a keyboard that supports gesture typing in Indic languages.
We begin by noting that when dealing with Indic languages, one needs to cater
to two different sets of users: (i) users who prefer to type in the native
Indic script (Devanagari, Bengali, etc.) and (ii) users who prefer to type in
the English script but want the output transliterated into the native script.
In both cases, we need a model that takes a trace as input and maps it to the
intended word. To enable the development of these models, we create and release
two datasets. First, we create a dataset containing keyboard traces for 193,658
words from 7 Indic languages. Second, we curate 104,412 English-Indic
transliteration pairs from Wikidata across these languages. Using these
datasets we build a model that performs path decoding, transliteration, and
transliteration correction. Unlike prior approaches, our proposed model does
not make co-character independence assumptions during decoding. The overall
accuracy of our model across the 7 languages varies from 70-95%.
- Abstract(参考訳): ジェスチャタイピング(英: Gesture typing)とは、タッチベースのキーボード上で、関連するキーを連続的にトレースすることで単語をタイプする方法である。
本研究の目的は,indic 言語でジェスチャ入力をサポートするキーボードの開発である。
まず、Indic言語を扱う際には、2つの異なるユーザセットに注意する必要があることに注意してください。
(i)ネイティブ・インデックス・スクリプト(Devanagari、Bengaliなど)を入力したいユーザ
(ii)英語のスクリプトを入力したいが、その出力をネイティブのスクリプトに書き起こしたいユーザ。
どちらの場合でも、トレースを入力として、それを意図した単語にマップするモデルが必要です。
これらのモデルの開発を可能にするために、2つのデータセットを作成し、リリースする。
まず、7つのindic言語から193,658単語のキーボードトレースを含むデータセットを作成する。
第2に,これらの言語間のウィキデータから104,412個の英字訳ペアを収集した。
これらのデータセットを使用して、パス復号、音訳、音訳補正を行うモデルを構築します。
従来の手法とは異なり,提案モデルではデコード時に共文字独立性を仮定しない。
7言語間のモデルの全体的な精度は70~95%である。
関連論文リスト
- Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - MATra: A Multilingual Attentive Transliteration System for Indian
Scripts [0.0]
本稿では,以下の5言語のうちの任意のペア間で音訳を行うことができるモデルを示す。
このモデルは最先端の言語(5つの言語の中で全てのペア)を破り、トップ1の精度スコアは80.7%に達した。
論文 参考訳(メタデータ) (2022-08-23T08:14:29Z) - Aksharantar: Open Indic-language Transliteration datasets and models for
the Next Billion Users [32.23606056944172]
Aksharantarは、モノリンガルコーパスとパラレルコーパスからのマイニングによって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
論文 参考訳(メタデータ) (2022-05-06T05:13:12Z) - Handling Compounding in Mobile Keyboard Input [7.309321705635677]
本稿では,形態的にリッチな言語におけるモバイルユーザのタイピング体験を改善するためのフレームワークを提案する。
スマートフォンのキーボードは典型的には、入力復号化、修正、予測といった言語モデルに依存している機能をサポートしている。
本手法は, 様々な複合言語において, 単語誤り率を約20%削減することを示す。
論文 参考訳(メタデータ) (2022-01-17T15:28:58Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - edATLAS: An Efficient Disambiguation Algorithm for Texting in Languages
with Abugida Scripts [0.0]
アブティダ(abugida)は、各音節を単一の子音またはタイポグラフィーのリガチュアで表現する音素表記システムである。
本稿では, あいまいな表現アルゴリズムを提案し, バグダ記述システムを用いた2つの新しい入力方式でその有用性を示す。
ヒンディー語、ベンガル語、タイ語での入力速度は19.49%、25.13%、14.89%向上した。
論文 参考訳(メタデータ) (2021-01-05T03:16:34Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Neural Approaches for Data Driven Dependency Parsing in Sanskrit [19.844420181108177]
我々は、もともと異なる言語向けに提案された4つの異なるデータ駆動機械学習モデルを評価し、サンスクリットデータの性能を比較した。
低リソース環境での各モデルのパフォーマンスを1500文のトレーニングで比較する。
また,これらのシステムに対して文を入力として提供する単語順序付けの影響について,詩文とその対応する散文順序を解析することによって検討する。
論文 参考訳(メタデータ) (2020-04-17T06:47:15Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。