論文の概要: MoRoVoc: A Large Dataset for Geographical Variation Identification of the Spoken Romanian Language
- arxiv url: http://arxiv.org/abs/2509.16781v1
- Date: Sat, 20 Sep 2025 19:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.973981
- Title: MoRoVoc: A Large Dataset for Geographical Variation Identification of the Spoken Romanian Language
- Title(参考訳): MoRoVoc: ルーマニア語の地理的変異同定のための大規模データセット
- Authors: Andrei-Marius Avram, Ema-Ioana Bănescu, Anda-Teodora Robea, Dumitru-Clementin Cercel, Mihaela-Claudia Cercel,
- Abstract要約: MoRoVocはルーマニア語話者の地域変化を分析するための最大のデータセットである。
本稿では,話者属性を対象とする音声モデルの多目的対人学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.074263534235215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MoRoVoc, the largest dataset for analyzing the regional variation of spoken Romanian. It has more than 93 hours of audio and 88,192 audio samples, balanced between the Romanian language spoken in Romania and the Republic of Moldova. We further propose a multi-target adversarial training framework for speech models that incorporates demographic attributes (i.e., age and gender of the speakers) as adversarial targets, making models discriminative for primary tasks while remaining invariant to secondary attributes. The adversarial coefficients are dynamically adjusted via meta-learning to optimize performance. Our approach yields notable gains: Wav2Vec2-Base achieves 78.21% accuracy for the variation identification of spoken Romanian using gender as an adversarial target, while Wav2Vec2-Large reaches 93.08% accuracy for gender classification when employing both dialect and age as adversarial objectives.
- Abstract(参考訳): 本稿では,ルーマニア語話者の局所的変化を解析するための最大のデータセットであるMoRoVocを紹介する。
93時間以上の音声と88,192の音声サンプルがあり、ルーマニア語とモルドバ共和国で話されている。
さらに,話者の年齢や性別などの属性を対象とする音声モデルの多目的対人訓練フレームワークを提案する。
対向係数はメタラーニングによって動的に調整され、性能が最適化される。
Wav2Vec2-Baseは、性別を敵のターゲットとして用いたルーマニア語話者の変種識別において78.21%の精度を達成し、Wav2Vec2-Largeは、方言と年齢の両方を敵の目的として用いた場合、性別分類において93.08%の精度を達成した。
関連論文リスト
- Demographic Attributes Prediction from Speech Using WavLM Embeddings [25.00298717665857]
本稿では, 年齢, 性別, 母語, 教育, 国などの人口動態特性を音声から推定するために, WavLM の特徴に基づく一般的な分類法を提案する。
提案フレームワークは,年齢予測のための平均絶対誤差(MAE)が4.94で,性別分類のための99.81%以上の精度で達成されている。
論文 参考訳(メタデータ) (2025-02-17T16:43:47Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - RoDia: A New Dataset for Romanian Dialect Identification from Speech [28.458975585210947]
RoDiaはルーマニア語の方言識別のための最初のデータセットである。
ルーマニアの5つの異なる地域からの音声サンプルが含まれており、都市部と農村部の両方をカバーしている。
上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。
論文 参考訳(メタデータ) (2023-09-06T21:56:24Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - The Unreasonable Effectiveness of Machine Learning in Moldavian versus
Romanian Dialect Identification [24.182791316595576]
モルダヴィア対ルーマニアのクロスディレクト・トピック識別のフォローアップ: VarDial 2019 Evaluation Campaignの共有タスク。
実験により、MLモデルは、文レベルでも、異なる領域にわたっても、方言を正確に識別できることが示されている。
アンサンブル学習を用いた改良型MLモデルを提案する。
論文 参考訳(メタデータ) (2020-07-30T19:25:00Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。