論文の概要: RoDia: A New Dataset for Romanian Dialect Identification from Speech
- arxiv url: http://arxiv.org/abs/2309.03378v1
- Date: Wed, 6 Sep 2023 21:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 14:59:25.680252
- Title: RoDia: A New Dataset for Romanian Dialect Identification from Speech
- Title(参考訳): RoDia: 音声からのルーマニア方言識別のための新しいデータセット
- Authors: Codrut Rotaru, Nicolae-Catalin Ristea, Radu Tudor Ionescu
- Abstract要約: RoDiaはルーマニア語の方言識別のための最初のデータセットである。
データセットには、ルーマニアの5つの異なる地域からの様々な音声サンプルのコンパイルが含まれている。
上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。
- 参考スコア(独自算出の注目度): 31.98503654522699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialect identification is a critical task in speech processing and language
technology, enhancing various applications such as speech recognition, speaker
verification, and many others. While most research studies have been dedicated
to dialect identification in widely spoken languages, limited attention has
been given to dialect identification in low-resource languages, such as
Romanian. To address this research gap, we introduce RoDia, the first dataset
for Romanian dialect identification from speech. The RoDia dataset includes a
varied compilation of speech samples from five distinct regions of Romania,
covering both urban and rural environments, totaling 2 hours of manually
annotated speech data. Along with our dataset, we introduce a set of
competitive models to be used as baselines for future research. The top scoring
model achieves a macro F1 score of 59.83% and a micro F1 score of 62.08%,
indicating that the task is challenging. We thus believe that RoDia is a
valuable resource that will stimulate research aiming to address the challenges
of Romanian dialect identification. We publicly release our dataset and code at
https://github.com/codrut2/RoDia.
- Abstract(参考訳): 方言識別は,音声認識や話者検証など,様々な応用の強化など,音声処理や言語技術において重要な課題である。
ほとんどの研究は広範に話されている言語における方言識別に費やされてきたが、ルーマニアのような低資源言語における方言識別には限定的な注意が払われている。
この研究ギャップを解決するために,ルーマニア語の方言識別のための最初のデータセットであるRoDiaを紹介する。
RoDiaデータセットには、ルーマニアの5つの異なる地域の音声サンプルの様々なコンパイルが含まれており、都市環境と農村環境の両方をカバーする。
データセットとともに、将来の研究のベースラインとして使用される一連の競争モデルを紹介します。
上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。
そこで我々はロディアがルーマニア語の方言識別の課題に取り組む研究を刺激する貴重な資源であると信じている。
私たちはデータセットとコードをhttps://github.com/codrut2/rodiaで公開しています。
関連論文リスト
- RoQLlama: A Lightweight Romanian Adapted Language Model [2.1892046440619626]
トレーニングにQLoRAを用いることで,計算機資源の削減という課題に対処する。
我々は,量子化LDMであるRoQLlama-7bをリリースした。
ルーマニア語で単一選択の医療質問を含む新しいルーマニア語データセットRoMedQAを紹介した。
論文 参考訳(メタデータ) (2024-10-05T19:14:11Z) - PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts [23.024346740949948]
PoPreRoは、Redditから収集されたルーマニアの投稿の人気予測のための最初のデータセットである。
PoPreRoデータセットには、ルーマニアの5つの異なるサブレディットからのポストサンプルの様々なコンパイルが含まれており、合計28,107のデータサンプルが含まれている。
論文 参考訳(メタデータ) (2024-07-05T14:28:12Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - HistNERo: Historical Named Entity Recognition for the Romanian Language [1.5924012820163407]
HistNERoは、歴史的新聞で名前付きエンティティ認識のためのルーマニア初のコーパスである。
データセットには323kのテキストトークンが含まれており、19世紀の半分以上をカバーしている。
8人のルーマニア語話者が5つの名前のエンティティでデータセットに注釈を付けた。
論文 参考訳(メタデータ) (2024-04-30T19:05:22Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest [51.68383826362895]
本稿では,空間的命令チューニングを提案し,その命令における関心領域(RoI)を参照することを提案する。
我々のモデルであるGPT4RoIは、7つのリージョンテキストペアデータセットに基づいて訓練されており、前例のない対話的かつ対話的な体験をもたらす。
論文 参考訳(メタデータ) (2023-07-07T13:43:44Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。