論文の概要: What Do Humans Hear When Interacting? Experiments on Selective Listening for Evaluating ASR of Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2508.04402v1
- Date: Wed, 06 Aug 2025 12:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.71942
- Title: What Do Humans Hear When Interacting? Experiments on Selective Listening for Evaluating ASR of Spoken Dialogue Systems
- Title(参考訳): 対話時の聴覚は何か? : 音声対話システムのASR評価のための選択的聴取実験
- Authors: Kiyotada Mori, Seiya Kawano, Chaoran Liu, Carlos Toshinori Ishi, Angel Fernando Garcia Contreras, Koichiro Yoshino,
- Abstract要約: 音声対話システム(SDS)は、パイプラインのフロントエンドで自動音声認識(ASR)を利用する。
我々は、人間が対話応答を生成するときの選択的リスニングを、対話応答を生成するための人間の転写と参照転写とを比較して実験的に確認する。
- 参考スコア(独自算出の注目度): 5.803679755928922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken dialogue systems (SDSs) utilize automatic speech recognition (ASR) at the front end of their pipeline. The role of ASR in SDSs is to recognize information in user speech related to response generation appropriately. Examining selective listening of humans, which refers to the ability to focus on and listen to important parts of a conversation during the speech, will enable us to identify the ASR capabilities required for SDSs and evaluate them. In this study, we experimentally confirmed selective listening when humans generate dialogue responses by comparing human transcriptions for generating dialogue responses and reference transcriptions. Based on our experimental results, we discuss the possibility of a new ASR evaluation method that leverages human selective listening, which can identify the gap between transcription ability between ASR systems and humans.
- Abstract(参考訳): 音声対話システム(SDS)は、パイプラインのフロントエンドで自動音声認識(ASR)を利用する。
SDSにおけるASRの役割は、応答生成に関連するユーザ音声の情報を適切に認識することである。
音声中の会話の重要部分を集中して聴く能力に言及した人間を選択的に聴くことで、SDSに必要なASR能力を識別し、評価することができる。
本研究では,人間が対話応答を生成するときの選択的聴取を,対話応答と参照書き起こしを生成するための人間の書き起こしとを比較して実験的に確認した。
実験結果に基づいて,ASRシステムとヒトの転写能力のギャップを識別する,人間の選択的聴取を利用した新しいASR評価手法の可能性について検討した。
関連論文リスト
- PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs [36.18860434920165]
音声データセットにパーソナリティアノテーションがないために、パーソナリティを意識した会話エージェントが不足している。
本研究では、生音声録音を前処理して、タイムスタンプ、応答タイプ、感情・感覚ラベルを付加した対話データセットを作成するパイプラインを提案する。
自動音声認識(ASR)システムを用いて,テキストとタイムスタンプを抽出し,会話レベルのアノテーションを生成する。
論文 参考訳(メタデータ) (2025-05-20T13:41:32Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Conversational Speech Recognition By Learning Conversation-level
Characteristics [25.75615870266786]
本稿では,会話レベルの特徴を主成分とする対話型ASRモデルを提案する。
2つのマンダリン会話型ASRタスクの実験により、提案モデルが最大12%の相対的文字誤り率(CER)を減少させることを示した。
論文 参考訳(メタデータ) (2022-02-16T04:33:05Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Neural Generation of Dialogue Response Timings [13.611050992168506]
音声応答オフセットの分布をシミュレートするニューラルモデルを提案する。
モデルは、インクリメンタルな音声対話システムのパイプラインに統合されるように設計されている。
人間の聴取者は、対話の文脈に基づいて、特定の応答タイミングをより自然なものとみなす。
論文 参考訳(メタデータ) (2020-05-18T23:00:57Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z) - Attention over Parameters for Dialogue Systems [69.48852519856331]
我々は,異なる対話スキルを個別にパラメータ化する対話システムを学び,AoP(Attention over Parameters)を通じてそれぞれを選択し,組み合わせることを学ぶ。
実験の結果,MultiWOZ,In-Car Assistant,Persona-Chatの複合データセット上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-01-07T03:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。