論文の概要: RoDia: A New Dataset for Romanian Dialect Identification from Speech
- arxiv url: http://arxiv.org/abs/2309.03378v1
- Date: Wed, 6 Sep 2023 21:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 14:59:25.680252
- Title: RoDia: A New Dataset for Romanian Dialect Identification from Speech
- Title(参考訳): RoDia: 音声からのルーマニア方言識別のための新しいデータセット
- Authors: Codrut Rotaru, Nicolae-Catalin Ristea, Radu Tudor Ionescu
- Abstract要約: RoDiaはルーマニア語の方言識別のための最初のデータセットである。
データセットには、ルーマニアの5つの異なる地域からの様々な音声サンプルのコンパイルが含まれている。
上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。
- 参考スコア(独自算出の注目度): 31.98503654522699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialect identification is a critical task in speech processing and language
technology, enhancing various applications such as speech recognition, speaker
verification, and many others. While most research studies have been dedicated
to dialect identification in widely spoken languages, limited attention has
been given to dialect identification in low-resource languages, such as
Romanian. To address this research gap, we introduce RoDia, the first dataset
for Romanian dialect identification from speech. The RoDia dataset includes a
varied compilation of speech samples from five distinct regions of Romania,
covering both urban and rural environments, totaling 2 hours of manually
annotated speech data. Along with our dataset, we introduce a set of
competitive models to be used as baselines for future research. The top scoring
model achieves a macro F1 score of 59.83% and a micro F1 score of 62.08%,
indicating that the task is challenging. We thus believe that RoDia is a
valuable resource that will stimulate research aiming to address the challenges
of Romanian dialect identification. We publicly release our dataset and code at
https://github.com/codrut2/RoDia.
- Abstract(参考訳): 方言識別は,音声認識や話者検証など,様々な応用の強化など,音声処理や言語技術において重要な課題である。
ほとんどの研究は広範に話されている言語における方言識別に費やされてきたが、ルーマニアのような低資源言語における方言識別には限定的な注意が払われている。
この研究ギャップを解決するために,ルーマニア語の方言識別のための最初のデータセットであるRoDiaを紹介する。
RoDiaデータセットには、ルーマニアの5つの異なる地域の音声サンプルの様々なコンパイルが含まれており、都市環境と農村環境の両方をカバーする。
データセットとともに、将来の研究のベースラインとして使用される一連の競争モデルを紹介します。
上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。
そこで我々はロディアがルーマニア語の方言識別の課題に取り組む研究を刺激する貴重な資源であると信じている。
私たちはデータセットとコードをhttps://github.com/codrut2/rodiaで公開しています。
関連論文リスト
- HistNERo: Historical Named Entity Recognition for the Romanian Language [1.5924012820163407]
HistNERoは、歴史的新聞で名前付きエンティティ認識のためのルーマニア初のコーパスである。
データセットには323kのテキストトークンが含まれており、19世紀の半分以上をカバーしている。
8人のルーマニア語話者が5つの名前のエンティティでデータセットに注釈を付けた。
論文 参考訳(メタデータ) (2024-04-30T19:05:22Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest [53.62745462528879]
本稿では,空間的命令チューニングを提案し,その命令における関心領域(RoI)を参照することを提案する。
我々のモデルであるGPT4RoIは、7つのリージョンテキストペアデータセットに基づいて訓練されており、前例のない対話的かつ対話的な体験をもたらす。
論文 参考訳(メタデータ) (2023-07-07T13:43:44Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Bengali Common Voice Speech Dataset for Automatic Speech Recognition [0.9218853132156671]
ベンガル語は世界で3億人以上の話者を抱える世界有数の言語の一つである。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットが不足しているために妨げられている。
このデータセットから得られた知見を提示し、今後のバージョンで対処すべき重要な言語的課題について議論する。
論文 参考訳(メタデータ) (2022-06-28T14:52:08Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。