論文の概要: The 2022 NIST Language Recognition Evaluation
- arxiv url: http://arxiv.org/abs/2302.14624v1
- Date: Tue, 28 Feb 2023 15:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:07:12.273238
- Title: The 2022 NIST Language Recognition Evaluation
- Title(参考訳): 2022年nist言語認識評価
- Authors: Yooyoung Lee, Craig Greenberg, Eliot Godard, Asad A. Butt, Elliot
Singer, Trang Nguyen, Lisa Mason, Douglas Reynolds
- Abstract要約: 2022年、米国国立標準技術研究所(NIST)が最新の言語認識評価(LRE)を行った。
従来のLREと同様、LRE22は会話電話音声(CTS)と放送狭帯域音声(BNBS)データに焦点を当てていた。
本稿では,LRE22の概要と評価条件の異なるシステム性能の解析について述べる。
- 参考スコア(独自算出の注目度): 1.3730035576297057
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In 2022, the U.S. National Institute of Standards and Technology (NIST)
conducted the latest Language Recognition Evaluation (LRE) in an ongoing series
administered by NIST since 1996 to foster research in language recognition and
to measure state-of-the-art technology. Similar to previous LREs, LRE22 focused
on conversational telephone speech (CTS) and broadcast narrowband speech (BNBS)
data. LRE22 also introduced new evaluation features, such as an emphasis on
African languages, including low resource languages, and a test set consisting
of segments containing between 3s and 35s of speech randomly sampled and
extracted from longer recordings. A total of 21 research organizations, forming
16 teams, participated in this 3-month long evaluation and made a total of 65
valid system submissions to be evaluated. This paper presents an overview of
LRE22 and an analysis of system performance over different evaluation
conditions. The evaluation results suggest that Oromo and Tigrinya are easier
to detect while Xhosa and Zulu are more challenging. A greater confusability is
seen for some language pairs. When speech duration increased, system
performance significantly increased up to a certain duration, and then a
diminishing return on system performance is observed afterward.
- Abstract(参考訳): 2022年、米国国立標準技術研究所(NIST)は、1996年からNISTが管理している最新の言語認識評価(LRE)を実施。
従来のLREと同様、LRE22は会話電話音声(CTS)と放送狭帯域音声(BNBS)データに焦点を当てていた。
LRE22はまた、低リソース言語を含むアフリカの言語に重点を置くことや、より長い録音からランダムにサンプリングされ抽出された3sから35sの音声を含むセグメントからなるテストセットなど、新しい評価機能を導入した。
この3ヶ月にわたる評価には,計21の研究機関が参加し,評価対象とした65の有効なシステム提案を行った。
本稿では,LRE22の概要と評価条件の異なるシステム性能の解析について述べる。
評価の結果,オロモとティグリニャは検出が容易であり,XhosaとZuluはより困難であることが示唆された。
いくつかの言語ペアでは、より難易度が高いことが分かる。
音声の持続時間が増加すると、システム性能は一定期間まで顕著に増加し、その後、システム性能の低下が観測される。
関連論文リスト
- TTSDS -- Text-to-Speech Distribution Score [9.380879437204277]
最近発表されたText-to-Speech (TTS) システムは、実際の音声に近い音声を生成する。
本稿では,韻律,話者識別,知性といった複数の要因を組み合わせた合成音声の質を評価することを提案する。
2008年から2024年にかけて開発された35のTTSシステムをベンチマークし, 評価値の非重み付き平均値として計算した結果が人体評価と強く相関していることを示した。
論文 参考訳(メタデータ) (2024-07-17T16:30:27Z) - Morphosyntactic Analysis for CHILDES [1.6258710071587594]
CHILDESデータベースのデータの書き起こしとリンクを行っている。
UD(Universal Dependencies)フレームワークを27言語に対して一貫した同値なモルフォシンタクティック分析に応用した。
論文 参考訳(メタデータ) (2024-07-17T08:11:24Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond [89.54151859266202]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - The 2021 NIST Speaker Recognition Evaluation [1.5282767384702267]
2021話者認識評価 (2021 Speaker Recognition Evaluation, SRE21) は、1996年からアメリカ合衆国国立標準技術研究所 (NIST) が実施している評価シリーズの最新サイクルである。
本稿では,タスク,評価基準,データ,評価プロトコル,結果,システム性能分析などを含むSRE21の概要について述べる。
論文 参考訳(メタデータ) (2022-04-21T16:18:52Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。