論文の概要: Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information
- arxiv url: http://arxiv.org/abs/2307.11450v1
- Date: Fri, 21 Jul 2023 09:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 13:01:51.903462
- Title: Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information
- Title(参考訳): 自発音声の話題識別:埋め込み言語情報による音声特徴の充実
- Authors: Dejan Porjazovski, Tam\'as Gr\'osz, Mikko Kurimo
- Abstract要約: 音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。
テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。
フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
- 参考スコア(独自算出の注目度): 10.698093106994804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional topic identification solutions from audio rely on an automatic
speech recognition system (ASR) to produce transcripts used as input to a
text-based model. These approaches work well in high-resource scenarios, where
there are sufficient data to train both components of the pipeline. However, in
low-resource situations, the ASR system, even if available, produces
low-quality transcripts, leading to a bad text-based classifier. Moreover,
spontaneous speech containing hesitations can further degrade the performance
of the ASR model. In this paper, we investigate alternatives to the standard
text-only solutions by comparing audio-only and hybrid techniques of jointly
utilising text and audio features. The models evaluated on spontaneous Finnish
speech demonstrate that purely audio-based solutions are a viable option when
ASR components are not available, while the hybrid multi-modal solutions
achieve the best results.
- Abstract(参考訳): 音声からの伝統的な話題識別ソリューションは、テキストベースモデルへの入力として使われる文字を生成するために自動音声認識システム(ASR)に依存している。
これらのアプローチは、パイプラインの両方のコンポーネントをトレーニングするのに十分なデータがある、高リソースのシナリオでうまく機能する。
しかし、低リソースの状況では、asrシステムは利用可能であっても低品質の書き起こしを生成し、悪いテキストベースの分類器に繋がる。
さらに, 自然発声音声は, ASRモデルの性能をさらに低下させることができる。
本稿では,テキストと音声を共同利用するための音声のみとハイブリッド技術を比較することで,標準テキストのみの代替手段を検討する。
フィンランドの自然発話で評価されたモデルは、ASRコンポーネントが利用できない場合、純粋にオーディオベースのソリューションが実行可能な選択肢であることを示している。
関連論文リスト
- Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - An Audio-enriched BERT-based Framework for Spoken Multiple-choice
Question Answering [11.307739925111944]
音声多重選択質問応答(SMCQA)タスクでは、一節、一問、複数の選択がすべて音声形式で与えられ、機械はその質問に答える正しい選択を選択する必要がある。
本研究は,BERTが学習した文脈的言語表現の利点を継承するだけでなく,音声から抽出した補音レベル情報をテキストレベル情報と統合する,BERTベースのSMCQAフレームワークの設計に集中する。
論文 参考訳(メタデータ) (2020-05-25T14:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。