論文の概要: Where Are You From? Let Me Guess! Subdialect Recognition of Speeches in Sorani Kurdish
- arxiv url: http://arxiv.org/abs/2404.00124v1
- Date: Fri, 29 Mar 2024 19:27:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 07:17:12.621853
- Title: Where Are You From? Let Me Guess! Subdialect Recognition of Speeches in Sorani Kurdish
- Title(参考訳): ソラニ・クルド語における音声のサブダイレクト認識
- Authors: Sana Isam, Hossein Hassani,
- Abstract要約: 研究対象地域はイラクのクルディスタン地方である。
107回のインタビューから29時間16分40秒の音声録音を蓄積しました。
我々は、ANN、CNN、RNN-LSTMの3つのディープラーニングモデルを適用した。
- 参考スコア(独自算出の注目度): 1.174020933567308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifying Sorani Kurdish subdialects poses a challenge due to the need for publicly available datasets or reliable resources like social media or websites for data collection. We conducted field visits to various cities and villages to address this issue, connecting with native speakers from different age groups, genders, academic backgrounds, and professions. We recorded their voices while engaging in conversations covering diverse topics such as lifestyle, background history, hobbies, interests, vacations, and life lessons. The target area of the research was the Kurdistan Region of Iraq. As a result, we accumulated 29 hours, 16 minutes, and 40 seconds of audio recordings from 107 interviews, constituting an unbalanced dataset encompassing six subdialects. Subsequently, we adapted three deep learning models: ANN, CNN, and RNN-LSTM. We explored various configurations, including different track durations, dataset splitting, and imbalanced dataset handling techniques such as oversampling and undersampling. Two hundred and twenty-five(225) experiments were conducted, and the outcomes were evaluated. The results indicated that the RNN-LSTM outperforms the other methods by achieving an accuracy of 96%. CNN achieved an accuracy of 93%, and ANN 75%. All three models demonstrated improved performance when applied to balanced datasets, primarily when we followed the oversampling approach. Future studies can explore additional future research directions to include other Kurdish dialects.
- Abstract(参考訳): Sorani Kurdishサブディレクトを分類することは、公開データセットやソーシャルメディアやWebサイトなどの信頼できるリソースがデータ収集のために必要になるため、課題となる。
我々は,異なる年齢層,性別,学歴,職業の母語話者と接続し,この問題に対処するため,各都市・村への現地訪問を行った。
ライフスタイル,背景,趣味,趣味,趣味,休暇,ライフレッスンなど,さまざまなトピックに関する会話をしながら,彼らの声を録音した。
研究対象地域はイラクのクルディスタン地方である。
その結果、107件のインタビューから29時間16分40秒の音声録音を蓄積し、6件のサブダイアレクトを含むアンバランスなデータセットを構成した。
その後、ANN、CNN、RNN-LSTMの3つのディープラーニングモデルを適用した。
トラックの持続時間、データセット分割、オーバーサンプリングやアンダーサンプリングといった不均衡なデータセットハンドリング技術など、さまざまな構成について検討した。
225回(225回) 実験を行い, 実験結果について検討した。
その結果,RNN-LSTMは96%の精度で他の手法よりも優れていた。
CNNは93%、ANNは75%の精度を達成した。
これら3モデルはすべて、バランスの取れたデータセットに適用した場合のパフォーマンス向上を示しました。
将来の研究は、他のクルド語方言を含むさらなる研究の方向性を探求することができる。
関連論文リスト
- The MuSe 2024 Multimodal Sentiment Analysis Challenge: Social Perception and Humor Recognition [64.5207572897806]
マルチモーダル・センティメント・アナリティクス・チャレンジ (MuSe) 2024は、現代の2つのマルチモーダル・インフルエンスと感情分析の問題に対処する。
Social Perception Sub-Challenge (MuSe-Perception)では、参加者は16種類の個人の社会的属性を予測する。
クロスカルカルカルチャー・ヒューモー検出サブチャレンジ(MuSe-Humor)データセットは、Passau Spontaneous Football Coach Humorデータセット上に拡張される。
論文 参考訳(メタデータ) (2024-06-11T22:26:20Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - ArBanking77: Intent Detection Neural Model and a New Dataset in Modern
and Dialectical Arabic [0.4999814847776097]
本稿では,銀行ドメインにおける意図検出のための大規模アラビア語データセットであるArBanking77について述べる。
我々のデータセットは、現代標準アラビア語(MSA)とパレスチナ方言の両方で31,404のクエリで、もともとのBritish Banking77データセットからアラベライズされ、ローカライズされた。
AraBERTに基づくニューラルネットワークをArBanking77で微調整し,MSAおよびパレスチナ方言で0.9209と0.8995のF1スコアを達成した。
論文 参考訳(メタデータ) (2023-10-29T14:46:11Z) - Political Sentiment Analysis of Persian Tweets Using CNN-LSTM Model [0.356008609689971]
ペルシャの政治ツイートの分析感情に機械学習とディープラーニングモデルを提案する。
ParsBERTの埋め込みによるディープラーニングは、機械学習よりも優れている。
論文 参考訳(メタデータ) (2023-07-15T08:08:38Z) - The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked
Emotions, Cross-Cultural Humour, and Personalisation [69.13075715686622]
MuSe 2023は、現代の3つの異なるマルチモーダル感情と感情分析の問題に対処する共有タスクの集合である。
MuSe 2023は、さまざまな研究コミュニティから幅広いオーディエンスを集めようとしている。
論文 参考訳(メタデータ) (2023-05-05T08:53:57Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Human-in-the-Loop for Data Collection: a Multi-Target Counter Narrative
Dataset to Fight Online Hate Speech [10.323063834827416]
カウンター・ナラティブと呼ばれる、情報や非攻撃的な反応によるヘイトフルコンテンツの影響を損なうことは、より健康的なオンラインコミュニティを実現するための解決策として浮上している。
本稿では、生成言語モデルを反復的に洗練する新しいヒューマン・イン・ザ・ループデータ収集手法を提案する。
その結果、この方法論はスケーラブルであり、多種多様で斬新で費用対効果の高いデータ収集を促進することが示されている。
論文 参考訳(メタデータ) (2021-07-19T09:45:54Z) - AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and
Baseline Methods [6.320141734801679]
大規模マルチモーダルなトルコ手話データセット(AUTSL)をベンチマークで提案する。
我々のデータセットは、43の異なるシグナが実行した226のサインと、38,336の孤立したシグナのビデオサンプルで構成されています。
我々は、いくつかのディープラーニングベースのモデルをトレーニングし、ベンチマークを用いて経験的評価を行った。
論文 参考訳(メタデータ) (2020-08-03T15:12:05Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z) - NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization [101.13851473792334]
我々は,5,109枚の画像からなる大規模集束群集NWPU-Crowdを構築し,合計2,133,375個の点と箱を付加したアノテートヘッドを構築した。
他の実世界のデータセットと比較すると、様々な照明シーンを含み、最大密度範囲 (020,033) を持つ。
本稿では,データ特性について述べるとともに,主要なSOTA(State-of-the-art)手法の性能を評価し,新たなデータに生じる問題を分析する。
論文 参考訳(メタデータ) (2020-01-10T09:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。