論文の概要: I can tell whether you are a Native Hawlêri Speaker! How ANN, CNN, and RNN perform in NLI-Native Language Identification
- arxiv url: http://arxiv.org/abs/2602.10832v1
- Date: Wed, 11 Feb 2026 13:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.927022
- Title: I can tell whether you are a Native Hawlêri Speaker! How ANN, CNN, and RNN perform in NLI-Native Language Identification
- Title(参考訳): ANN, CNN, RNNがNLI-Native Language Identificationでどのように機能するか。
- Authors: Hardi Garari, Hossein Hassani,
- Abstract要約: NLI(Native Language Identification)は、自然言語処理(NLP)におけるタスクであり、典型的には著者の母国語を決定する。
本研究は、ソラニ(中央クルド語)の下位方言の文脈におけるNLIに焦点を当てる。
イラクのクルディスタン州の首都ヘールで話されているヘールリ語(英語版)のNLIを調査することを目的としている。
- 参考スコア(独自算出の注目度): 1.3464152928754487
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Native Language Identification (NLI) is a task in Natural Language Processing (NLP) that typically determines the native language of an author through their writing or a speaker through their speaking. It has various applications in different areas, such as forensic linguistics and general linguistics studies. Although considerable research has been conducted on NLI regarding two different languages, such as English and German, the literature indicates a significant gap regarding NLI for dialects and subdialects. The gap becomes wider in less-resourced languages such as Kurdish. This research focuses on NLI within the context of a subdialect of Sorani (Central) Kurdish. It aims to investigate the NLI for Hewlêri, a subdialect spoken in Hewlêr (Erbil), the Capital of the Kurdistan Region of Iraq. We collected about 24 hours of speech by recording interviews with 40 native or non-native Hewlêri speakers, 17 female and 23 male. We created three Neural Network-based models: Artificial Neural Network (ANN), Convolutional Neural Network (CNN), and Recurrent Neural Network (RNN), which were evaluated through 66 experiments, covering various time-frames from 1 to 60 seconds, undersampling, oversampling, and cross-validation. The RNN model showed the highest accuracy of 95.92% for 5-second audio segmentation, using an 80:10:10 data splitting scheme. The created dataset is the first speech dataset for NLI on the Hewlêri subdialect in the Sorani Kurdish dialect, which can be of benefit to various research areas.
- Abstract(参考訳): ネイティブ言語識別(Native Language Identification、NLI)は、自然言語処理(NLP)におけるタスクであり、典型的には、著者の文章や話し言葉を通じて、著者の母国語を決定する。
法医学的言語学や一般言語学など、様々な分野に応用されている。
英語とドイツ語の2つの異なる言語について、NLIについてかなりの研究が行われてきたが、この文献は、方言や方言に対するNLIに関する大きなギャップを示している。
このギャップは、クルド語のような低リソースの言語ではより広くなります。
本研究は、ソラニ(中央クルド語)の下位方言の文脈におけるNLIに焦点を当てる。
イラクのクルディスタン州の首都ヘーレリで話されているヘーレリ語(英語版)のNLIについて調査することを目的としている。
対象は母国語話者40名,母国語話者17名,男性23名であった。
ANN(Artificial Neural Network)、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)の3つのニューラルネットワークベースモデルを作成した。
RNNモデルは、80:10:10データ分割スキームを使用して、5秒の音声セグメンテーションにおいて最高95.92%の精度を示した。
作成したデータセットは、Sorani Kurdish 方言の Hewlêri subdialect における NLI のための最初の音声データセットであり、様々な研究分野の恩恵を受けることができる。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Where Are You From? Let Me Guess! Subdialect Recognition of Speeches in Sorani Kurdish [1.174020933567308]
研究対象地域はイラクのクルディスタン地方である。
107回のインタビューから29時間16分40秒の音声録音を蓄積しました。
我々は、ANN、CNN、RNN-LSTMの3つのディープラーニングモデルを適用した。
論文 参考訳(メタデータ) (2024-03-29T19:27:04Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Employing Hybrid Deep Neural Networks on Dari Speech [0.0]
本稿では,Mel- frequency cepstral coefficients (MFCCs) 特徴抽出法を用いて,Dari言語における個々の単語の認識に焦点を当てる。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、多層パーセプトロン(MLP)の3つの異なるディープニューラルネットワークモデルを評価する。
論文 参考訳(メタデータ) (2023-05-04T23:10:53Z) - NeuraGen-A Low-Resource Neural Network based approach for Gender
Classification [0.0]
ELSDSRとTIMITデータセットから収集した音声記録を用いた。
我々は、8つの音声特徴を抽出し、その特徴を前処理し、その後NeuraGenに入力し、性別を特定した。
NeuraGenは90.7407%、F1スコア91.227%、20倍のクロス検証データセットを達成している。
論文 参考訳(メタデータ) (2022-03-29T05:57:24Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。