論文の概要: Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective
- arxiv url: http://arxiv.org/abs/2211.02812v1
- Date: Sat, 5 Nov 2022 04:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 16:35:24.048358
- Title: Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective
- Title(参考訳): 会話音声の自動音声認識システムの評価 : 言語学的観点から
- Authors: Hannaneh B. Pasandi, Haniyeh B. Pasandi
- Abstract要約: 我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automatic speech recognition (ASR) meets more informal and free-form input
data as voice user interfaces and conversational agents such as the voice
assistants such as Alexa, Google Home, etc., gain popularity. Conversational
speech is both the most difficult and environmentally relevant sort of data for
speech recognition. In this paper, we take a linguistic perspective, and take
the French language as a case study toward disambiguation of the French
homophones. Our contribution aims to provide more insight into human speech
transcription accuracy in conditions to reproduce those of state-of-the-art ASR
systems, although in a much focused situation. We investigate a case study
involving the most common errors encountered in the automatic transcription of
French language.
- Abstract(参考訳): 自動音声認識(ASR)は、音声ユーザインターフェースやAlexa、Google Homeなどの音声アシスタントなどの会話エージェントとして、より非公式で自由形式の入力データに対応する。
会話音声は、音声認識において最も困難かつ環境にかかわるデータである。
本稿では, フランス語を, ホモフォンの曖昧さを解消するための事例研究として, 言語的視点を取り入れる。
我々の貢献は、最先端のASRシステムを再現する条件において、人間の音声の転写精度をよりよく把握することを目的としている。
フランス語の自動転写における最も一般的な誤りを事例として検討した。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - The timing bottleneck: Why timing and overlap are mission-critical for
conversational user interfaces, speech recognition and dialogue systems [0.11470070927586018]
対話型および多言語対応のための5つの主要な商用ASRシステムの評価を行った。
6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である。
本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。
論文 参考訳(メタデータ) (2023-07-28T11:38:05Z) - Using Kaldi for Automatic Speech Recognition of Conversational Austrian
German [5.887969742827489]
本稿では,オーストリアドイツ語の読み書き実験を対象とするASR実験について述べる。
我々は知識に基づく発音レキシコンを組み込むことで、カルディに基づくASRシステムを改善する。
我々はドイツ語読み上げ音声で0.4%、会話音声で48.5%のWERを達成する。
論文 参考訳(メタデータ) (2023-01-16T15:28:28Z) - Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。
TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文 参考訳(メタデータ) (2022-12-16T20:30:33Z) - A Textless Metric for Speech-to-Speech Comparison [20.658229254191266]
テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。
我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
論文 参考訳(メタデータ) (2022-10-21T09:28:54Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。
Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文 参考訳(メタデータ) (2022-03-24T07:15:24Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。