論文の概要: SpokesBiz -- an Open Corpus of Conversational Polish
- arxiv url: http://arxiv.org/abs/2312.12364v1
- Date: Tue, 19 Dec 2023 17:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 14:40:58.316253
- Title: SpokesBiz -- an Open Corpus of Conversational Polish
- Title(参考訳): スポークスビス - 会話型ポーランド語のオープンなコーパス
- Authors: Piotr P\k{e}zik, Sylwia Karasi\'nska, Anna Cichosz, {\L}ukasz
Ja{\l}owiecki, Konrad Kaczy\'nski, Ma{\l}gorzata Krawentek, Karolina Walkusz,
Pawe{\l} Wilk, Mariusz Kle\'c, Krzysztof Szklanny, Szymon Marsza{\l}kowski
- Abstract要約: 本稿では,CLARIN-BIZプロジェクト内で開発された対話型ポーランド語コーパスであるSpokesBizの初期リリースについて述べる。
本稿では,コーパスの一般的な構造と内容について概説し,言語研究,自動音声認識(ASR)システムの評価と改善における選択された応用を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper announces the early release of SpokesBiz, a freely available
corpus of conversational Polish developed within the CLARIN-BIZ project and
comprising over 650 hours of recordings. The transcribed recordings have been
diarized and manually annotated for punctuation and casing. We outline the
general structure and content of the corpus, showcasing selected applications
in linguistic research, evaluation and improvement of automatic speech
recognition (ASR) systems
- Abstract(参考訳): 本稿では,CLARIN-BIZプロジェクトで開発された対話型ポーランド語コーパスであるSpokesBizの初期リリースについて報告する。
書き起こされた録音はダイアリゼーションされ、句読とケーシングのために手動で注釈が付された。
コーパスの構造と内容について概説し、言語研究における選択された応用、自動音声認識(ASR)システムの評価と改善を示す。
関連論文リスト
- FeruzaSpeech: A 60 Hour Uzbek Read Speech Corpus with Punctuation, Casing, and Context [0.0]
本稿では,ウズベキスタン語の読み上げ音声コーパスであるFeruzaSpeechを紹介する。
FeruzaSpeechはキリル文字とラテン文字の両方で転写されている。
本稿では,FeruzaSpeechの統合によるCommonVoice 16.1のUzbekデータ,Uzbek Speech Corpusデータ,FeruzaSpeechデータに対する単語誤り率(WER)の増大について論じる。
論文 参考訳(メタデータ) (2024-09-23T03:07:30Z) - FLEURS-R: A Restored Multilingual Speech Corpus for Generation Tasks [27.894172151026044]
FLEURS-Rは、音声コーパスの普遍表現に関するFew-shot Learning Evaluationの音声復元応用版である。
FLEURS-Rの目的は、より多くの言語で音声技術を進歩させ、テキスト音声を含む研究を触媒することである。
論文 参考訳(メタデータ) (2024-08-12T15:28:51Z) - Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline [0.0]
本稿では,mandarin- English code-switching speech recognition--TALCS corpus の新たなコーパスを提案する。
TALCSコーパス(TALCS corpus)は、TAL教育グループにおけるオンラインの1対1の英語教育シーンに由来する。
私たちの知る限りでは、TALCS corpusは、マンダリン英語のコードスイッチングオープンソース自動音声認識データセットとして世界最大である。
論文 参考訳(メタデータ) (2022-06-27T09:30:25Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - speechocean762: An Open-Source Non-native English Speech Corpus For
Pronunciation Assessment [36.384236523098956]
本稿では,オープンソースの音声コーパス「speechocean762」を提案する。
250人の非母語話者からなる5000の英語発話からなり、その半数が子供である。
5名の専門家が各発話を文レベル,単語レベル,音素レベルで注釈した。
論文 参考訳(メタデータ) (2021-04-03T11:31:59Z) - Construction of a Large-scale Japanese ASR Corpus on TV Recordings [2.28438857884398]
本稿では,音声認識システム(ASR)を学習するための大規模日本語コーパスを提案する。
このコーパスには2000時間以上のスピーチと、日本のテレビの録音とその字幕に書かれた書き起こしが含まれている。
論文 参考訳(メタデータ) (2021-03-26T21:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。