論文の概要: Next word prediction based on the N-gram model for Kurdish Sorani and
Kurmanji
- arxiv url: http://arxiv.org/abs/2008.01546v1
- Date: Mon, 27 Jul 2020 20:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 08:38:31.161880
- Title: Next word prediction based on the N-gram model for Kurdish Sorani and
Kurmanji
- Title(参考訳): クルド語ソラニとクルマンジのN-gramモデルに基づく次の単語予測
- Authors: Hozan K. Hamarashid, Soran A. Saeed and Tarik A. Rashid
- Abstract要約: 次の単語予測は、会話中のタイピングが時間を消費するので、ユーザに次の単語を選択するように提案する入力技術である。
本稿では,クルド語コーパスを提供し,5つの単語を生成するとともに,クルド語ソラニとクルマンジの次の単語予測に関するユニークな研究結果を示す。
- 参考スコア(独自算出の注目度): 0.9990687944474739
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Next word prediction is an input technology that simplifies the process of
typing by suggesting the next word to a user to select, as typing in a
conversation consumes time. A few previous studies have focused on the Kurdish
language, including the use of next word prediction. However, the lack of a
Kurdish text corpus presents a challenge. Moreover, the lack of a sufficient
number of N-grams for the Kurdish language, for instance, five grams, is the
reason for the rare use of next Kurdish word prediction. Furthermore, the
improper display of several Kurdish letters in the Rstudio software is another
problem. This paper provides a Kurdish corpus, creates five, and presents a
unique research work on next word prediction for Kurdish Sorani and Kurmanji.
The N-gram model has been used for next word prediction to reduce the amount of
time while typing in the Kurdish language. In addition, little work has been
conducted on next Kurdish word prediction; thus, the N-gram model is utilized
to suggest text accurately. To do so, R programming and RStudio are used to
build the application. The model is 96.3% accurate.
- Abstract(参考訳): 次の単語予測は、会話中の入力が時間を消費するように、ユーザに次の単語を選択させることで、入力のプロセスを簡単にする入力技術である。
以前のいくつかの研究はクルド語に焦点をあてており、次の単語予測の使用も含まれている。
しかし、クルド語テキストコーパスの欠如が課題となっている。
さらに、クルド語に十分な数のn-gram(例えば5グラム)がないことが、次のクルド語の単語予測を稀に使用する理由である。
さらに、Rstudioソフトウェアにおけるクルド文字の不正表示も問題となっている。
本稿では,クルド語のコーパスを提供し,5つのコーパスを作成し,クルド語のソラニ語とクルマンジ語の次の単語予測に関するユニークな研究成果を示す。
n-gramモデルは、クルド語で入力する時間を減らすために、次の単語予測に使われてきた。
さらに、次のクルド語単語予測についてはほとんど研究されていないため、N-gramモデルを用いてテキストを正確に提案する。
そのため、RプログラミングとRStudioを使ってアプリケーションを構築する。
このモデルは96.3%正確である。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - Language Model is a Branch Predictor for Simultaneous Machine
Translation [73.82754138171587]
翻訳遅延を低減するため,SiMTタスクに分岐予測手法を組み込むことを提案する。
言語モデルを分岐予測器として利用し,潜在的な分岐方向を予測する。
実際のソース語が予測されたソース語から逸脱すると、実際のソース語を使用して出力を復号し、予測された出力を置き換える。
論文 参考訳(メタデータ) (2023-12-22T07:32:47Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Why can neural language models solve next-word prediction? A
mathematical perspective [53.807657273043446]
本研究では,英語文の実例をモデル化するための形式言語群について検討する。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - TypeT5: Seq2seq Type Inference using Static Analysis [51.153089609654174]
本稿では,型予測をコード入力タスクとして扱う新しい型推論手法を提案する。
本手法では静的解析を用いて,型シグネチャがモデルによって予測されるコード要素毎に動的コンテキストを構築する。
また,モデルの入力コンテキストに事前の型予測を組み込んだ反復復号方式を提案する。
論文 参考訳(メタデータ) (2023-03-16T23:48:00Z) - Part of Speech Tagging (POST) of a Low-resource Language using another
Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged
Persian (Farsi) Corpus) [0.76146285961466]
音声タグ付け(POST)の一部はタグ付きコーパスの開発に不可欠である。
クルド語は現在、適切なサイズのタグ付きコーパスが公開されていない。
我々は、ペルシャ語(Farsi)のタグ付きコーパス(Bijankhan corpus)をクルド語に近い言語として使用し、POSタグ付きレキシコンを開発する。
論文 参考訳(メタデータ) (2022-01-30T11:49:43Z) - Hunspell for Sorani Kurdish Spell Checking and Morphological Analysis [0.0]
本稿では,形態素タグを付した辞書の注釈,およびSorani Kurdishの形態規則を抽出して,Hunspellを用いた形態素解析器,ステマー,スペルチェックシステムを構築した。
この実装は、研究者によるさらなる開発に使用することができ、また、公開ライセンスの下でテキストエディタに統合することもできる。
論文 参考訳(メタデータ) (2021-09-14T00:24:20Z) - OKGIT: Open Knowledge Graph Link Prediction with Implicit Types [2.5575240337123124]
Open Knowledge Graphs (OpenKG) は、OpenIEツールを使用してコーパスから抽出された(頭名詞句、関係語句、尾名詞句)3つ組の集合を指す。
現在のOpenKGリンク予測アルゴリズムは、与えられた名詞と関係句の非互換な型を持つ名詞句(NP)を予測することが多い。
そこで我々は,新しい型対応スコアと型正規化を用いたOpenKGリンクの予測を改善するOKGITを提案する。
論文 参考訳(メタデータ) (2021-06-24T07:48:05Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。