論文の概要: CAMÕES: A Comprehensive Automatic Speech Recognition Benchmark for European Portuguese
- arxiv url: http://arxiv.org/abs/2508.19721v1
- Date: Wed, 27 Aug 2025 09:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.578477
- Title: CAMÕES: A Comprehensive Automatic Speech Recognition Benchmark for European Portuguese
- Title(参考訳): 欧州ポルトガル語のための総合的自動音声認識ベンチマーク「CAM'ES」
- Authors: Carlos Carvalho, Francisco Teixeira, Catarina Botelho, Anna Pompili, Rubén Solera-Ureña, Sérgio Paulo, Mariana Julião, Thomas Rolland, John Mendonça, Diogo Pereira, Isabel Trancoso, Alberto Abad,
- Abstract要約: ポルトガル語における音声認識のための既存のリソースは主にブラジルポルトガル語に焦点を当てている。
ヨーロッパポルトガル(EP)および他のポルトガル品種のための最初のオープンフレームワークであるCAMOESを紹介する。
1)複数の領域にまたがるEPテストデータの46hと,(2)最先端モデルの集合を含む総合的な評価ベンチマークで構成されている。
- 参考スコア(独自算出の注目度): 20.260617254316603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing resources for Automatic Speech Recognition in Portuguese are mostly focused on Brazilian Portuguese, leaving European Portuguese (EP) and other varieties under-explored. To bridge this gap, we introduce CAM\~OES, the first open framework for EP and other Portuguese varieties. It consists of (1) a comprehensive evaluation benchmark, including 46h of EP test data spanning multiple domains; and (2) a collection of state-of-the-art models. For the latter, we consider multiple foundation models, evaluating their zero-shot and fine-tuned performances, as well as E-Branchformer models trained from scratch. A curated set of 425h of EP was used for both fine-tuning and training. Our results show comparable performance for EP between fine-tuned foundation models and the E-Branchformer. Furthermore, the best-performing models achieve relative improvements above 35% WER, compared to the strongest zero-shot foundation model, establishing a new state-of-the-art for EP and other varieties.
- Abstract(参考訳): 既存のポルトガル語の自動音声認識のリソースは主にブラジルポルトガル語に焦点が当てられており、ヨーロッパポルトガル語(EP)やその他の品種は未調査のままである。
このギャップを埋めるために、EPや他のポルトガル品種のための最初のオープンフレームワークであるCAM\~OESを紹介します。
1)複数の領域にまたがるEPテストデータの46hと,(2)最先端モデルの集合を含む総合的な評価ベンチマークで構成されている。
後者については、ゼロショットおよび微調整されたパフォーマンスの評価、スクラッチからトレーニングされたE-Branchformerモデルなど、複数の基礎モデルについて検討する。
EPのキュレートされた425hのセットは、微調整と訓練の両方に使用された。
本研究の結果は, 精密な基礎モデルとE-BranchformerのEPに匹敵する性能を示した。
さらに、最高性能モデルは、最強のゼロショット基礎モデルと比較して35% WER以上の相対的な改善を達成し、EPや他の品種の新たな最先端モデルを確立する。
関連論文リスト
- SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work [87.9341538630949]
第1回手話生産チャレンジはCVPR 2025で第3回SLRTPワークショップの一環として開催された。
コンペティションの目的は、音声言語文からスケルトンポーズのシーケンスに変換するアーキテクチャを評価することである。
本稿では,挑戦設計と入賞方法について述べる。
論文 参考訳(メタデータ) (2025-08-09T11:57:33Z) - Evaluating Prompt-Based and Fine-Tuned Approaches to Czech Anaphora Resolution [0.0]
アナフォラ分解は、チェコ語のような形態学的に豊かな言語において、自然言語理解において重要な役割を担っている。
本稿では,チェコ語テキストにおけるアナフォラ分解能に対する2つの近代的アプローチの比較評価を行った。
本研究では,大規模言語モデル (LLM) と微調整型コンパクト生成モデルとの比較を行った。
論文 参考訳(メタデータ) (2025-06-22T16:32:57Z) - From Brazilian Portuguese to European Portuguese [2.048226951354646]
ブラジル・ポルトガル語とヨーロッパ・ポルトガル語は同じ言語の2つの変種である。
2つの変種間での資源の入手にはかなりの不均衡がある。
この不平等は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの質に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-08-14T10:58:48Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - Large-scale learning of generalised representations for speaker
recognition [52.978310296712834]
多様なシナリオで使用される話者認識モデルを開発した。
いくつかの既存のデータセットを組み合わせた新しいトレーニングデータ構成について検討する。
帰納バイアスの少ない MFA-Conformer が最良を一般化する。
論文 参考訳(メタデータ) (2022-10-20T03:08:18Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Mixed Model OCR Training on Historical Latin Script for Out-of-the-Box
Recognition and Finetuning [0.0]
本研究では,文字誤り率(CER)が約2%の多焦点認識モデルを構築した。
我々は、このモデルを、手作業や計算の労力をほとんど必要とせずに、印刷の特定のクラスにさらに微調整できることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:51:54Z) - PTT5: Pretraining and validating the T5 model on Brazilian Portuguese
data [4.579262239784748]
ポルトガルのWebページの大規模なコレクションであるBrWac corpus上で、T5モデルを事前訓練する。
ポルトガルの事前訓練モデルでは、オリジナルのT5モデルよりも大幅に性能が向上していることを示す。
論文 参考訳(メタデータ) (2020-08-20T18:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。