論文の概要: SPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcription
- arxiv url: http://arxiv.org/abs/2508.05554v1
- Date: Thu, 07 Aug 2025 16:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.957887
- Title: SPGISpeech 2.0: Transcribed multi-speaker financial audio for speaker-tagged transcription
- Title(参考訳): SPGISpeech 2.0: 話者タグ付き文字起こしのためのマルチスピーカーファイナンシャルオーディオ
- Authors: Raymond Grossman, Taejin Park, Kunal Dhawan, Andrew Titus, Sophia Zhi, Yulia Shchadilova, Weiqing Wang, Jagadeesh Balam, Boris Ginsburg,
- Abstract要約: SPGISpeech 2.0は、金融分野における話者タグの転写に適したデータセットである。
我々はSPGISpeech 2.0が音声認識技術の進歩を促進することを期待する。
- 参考スコア(独自算出の注目度): 19.405492698352607
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce SPGISpeech 2.0, a dataset suitable for speaker-tagged transcription in the financial domain. SPGISpeech 2.0 improves the diversity of applicable modeling tasks while maintaining the core characteristic of the original SPGISpeech dataset: audio snippets and their corresponding fully formatted text transcriptions, usable for end-to-end automatic speech recognition (ASR). SPGISpeech 2.0 consists of 3,780 additional hours of professionally transcribed earnings calls. Furthermore, the dataset contains call and speaker information for each audio snippet facilitating multi-talker ASR. We validate the utility of SPGISpeech 2.0 through improvements in speaker-tagged ASR performance of popular speech recognition models after fine-tuning on SPGISpeech 2.0. Released free for non-commercial use, we expect SPGISpeech 2.0 to foster advancements in speech recognition technologies and inspire a wide range of research applications.
- Abstract(参考訳): 本稿では,金融分野における話者タグの書き起こしに適したデータセットであるSPGISpeech 2.0を紹介する。
SPGISpeech 2.0は、元のSPGISpeechデータセットのコア特性(音声スニペットとその対応する完全フォーマットのテキスト書き起こし)を維持しながら、適用可能なモデリングタスクの多様性を改善し、エンドツーエンドの自動音声認識(ASR)に使用できる。
SPGISpeech 2.0は、プロフェッショナルに書き起こされた決算報告の3,780時間の追加時間で構成されている。
さらに、データセットには、マルチトーカーASRを容易にする音声スニペット毎の通話情報と話者情報が含まれている。
我々は,SPGISpeech 2.0の微調整後,一般的な音声認識モデルの話者タグ付きASR性能を改善し,SPGISpeech 2.0の有用性を検証する。
我々はSPGISpeech 2.0を無償でリリースし、音声認識技術の進歩を促進し、幅広い研究応用を刺激することを期待している。
関連論文リスト
- Step-Audio 2 Technical Report [108.04129284951314]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。
遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文 参考訳(メタデータ) (2025-07-22T14:23:55Z) - S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information [47.950757976473035]
パラ言語情報を用いた命令追従機能の評価を行う,新しいアリーナスタイルのS2SベンチマークであるS2S-Arenaを紹介する。
GPT-4oの優れた性能に加えて、カスケードされたASR, LLM, TTSの音声モデルは、音声2音声プロトコルにおけるテキスト・音声アライメント後に共同訓練されたモデルよりも優れる。
論文 参考訳(メタデータ) (2025-03-07T02:07:00Z) - Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。