論文の概要: The North System for Formosa Speech Recognition Challenge 2023
- arxiv url: http://arxiv.org/abs/2310.03443v2
- Date: Fri, 6 Oct 2023 02:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 10:25:33.682219
- Title: The North System for Formosa Speech Recognition Challenge 2023
- Title(参考訳): 2023年におけるフォルモサ音声認識のノースシステム
- Authors: Li-Wei Chen, Kai-Chen Cheng, Hung-Shin Lee
- Abstract要約: 台湾人ハッカ(シクシアン)の自動単語・音節認識の実現を目的とした北部制度
このレポートでは、トレーニングデータの取得、構成、利用、モデルのアーキテクチャ、ハードウェア仕様と運用統計の3つの重要なコンポーネントについて概説している。
- 参考スコア(独自算出の注目度): 12.120587733383497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report provides a concise overview of the proposed North system, which
aims to achieve automatic word/syllable recognition for Taiwanese Hakka
(Sixian). The report outlines three key components of the system: the
acquisition, composition, and utilization of the training data; the
architecture of the model; and the hardware specifications and operational
statistics. The demonstration of the system has been made public at
https://asrvm.iis.sinica.edu.tw/hakka_sixian.
- Abstract(参考訳): 本報告では,台湾のハッカ語における単語・音節の自動認識の実現を目的とした,提案する北部システムの簡潔な概要について述べる。
このレポートでは、トレーニングデータの取得、構成、利用、モデルのアーキテクチャ、ハードウェア仕様と運用統計の3つの重要なコンポーネントについて概説している。
システムのデモンストレーションはhttps://asrvm.iis.sinica.edu.tw/hakka_sixianで公開されている。
関連論文リスト
- Word-wise intonation model for cross-language TTS systems [0.0]
提案手法は,自動データマークアップとテキスト音声合成システムへの応用に適している。
キーとなるアイデアは、単語中の強勢音節の異なる配置と結びついた変動性の部分的除去である。
提案モデルは,テキストから音声への韻律記述のツールとして,あるいはバックボーンとして使用することができる。
論文 参考訳(メタデータ) (2024-09-30T15:09:42Z) - VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka [10.784402571965867]
VoxHakka(ヴォックスハッカ、VoxHakka)は、台湾の言語であるHakka向けに設計された音声合成システムである。
VoxHakkaは音声合成における自然性と精度,低リアルタイム化を実現している。
論文 参考訳(メタデータ) (2024-09-03T02:37:34Z) - SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech
Recognition Evaluation [7.640323749917747]
SpeechColab Leaderboardは、ASR評価用に設計された汎用オープンソースプラットフォームである。
我々は、ASRシステムにおける最先端のパノラマについて、包括的なベンチマークを報告した。
スコアリングパイプラインにおける異なるニュアンスが最終的なベンチマーク結果にどのように影響するかを定量化する。
論文 参考訳(メタデータ) (2024-03-13T02:41:53Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - SysNoise: Exploring and Benchmarking Training-Deployment System
Inconsistency [55.49469003537601]
我々はSysNoiseを紹介した。SysNoiseは、頻繁に発生するが、ディープラーニングのトレーニング-デプロイサイクルでしばしば見過ごされるノイズである。
我々は,SysNoiseが20以上のモデル,画像分類,オブジェクト検出,インスタンスセグメンテーション,自然言語処理タスクに与える影響を測定する。
実験の結果、SysNoiseはさまざまなタスクにわたるモデルロバスト性に一定の影響をもたらし、データ強化や逆行訓練のような一般的な緩和効果は、それに対する限られた影響を示します。
論文 参考訳(メタデータ) (2023-07-01T09:22:54Z) - DinoSR: Self-Distillation and Online Clustering for Self-supervised
Speech Representation Learning [140.96990096377127]
自己教師型音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを導入する。
DinoSRはまず、入力されたオーディオから教師ネットワークにコンテキスト化された埋め込みを抽出し、埋め込み上にオンラインクラスタリングシステムを実行して、マシンが発見した携帯電話の在庫を出力し、最後に、識別トークンを使用して学生ネットワークを誘導する。
本稿では,DinoSRが複数の下流タスクにおいて過去の最先端性能を上回ることを示し,モデルと学習した離散単位の詳細な解析を行う。
論文 参考訳(メタデータ) (2023-05-17T07:23:46Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - SpanNer: Named Entity Re-/Recognition as Span Prediction [62.66148736099347]
スパン予測モデルは名前付きエンティティ認識に使用される。
我々は11のデータセットに154のシステムを実験的に実装し、3つの言語をカバーした。
私たちのモデルはExplainaBoardプラットフォームにデプロイされました。
論文 参考訳(メタデータ) (2021-06-01T17:11:42Z) - Three-class Overlapped Speech Detection using a Convolutional Recurrent
Neural Network [32.59704287230343]
提案手法は,非音声,単一話者発話,重複発話の3つのクラスに分類できる。
畳み込み型リカレントニューラルネットワークアーキテクチャは、畳み込み層がローカルパターンをモデル化する能力と、シーケンシャルな情報をモデル化するリカレント層の能力の両方の恩恵を受けるために研究されている。
提案した重畳重畳音声検出モデルは,DIHARD II評価セット上での精度0.6648,リコール0.3222で最先端の性能を確立する。
論文 参考訳(メタデータ) (2021-04-07T03:01:34Z) - Pretrained Semantic Speech Embeddings for End-to-End Spoken Language
Understanding via Cross-Modal Teacher-Student Learning [31.7865837105092]
本研究では,事前学習した文脈埋め込みによる音響特性の処理を可能にする新しい学習手法を提案する。
我々は、エンドツーエンドの音声言語理解システムを構築するために、事前訓練された音声認識システムのエンコーダで拡張する。
論文 参考訳(メタデータ) (2020-07-03T17:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。