論文の概要: Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue
- arxiv url: http://arxiv.org/abs/2409.04927v3
- Date: Wed, 2 Oct 2024 07:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 22:49:49.427975
- Title: Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue
- Title(参考訳): 音声大言語モデルにおける音声対話における話者の認識と理解能力の検討
- Authors: Junkai Wu, Xulin Fan, Bo-Ru Lu, Xilin Jiang, Nima Mesgarani, Mark Hasegawa-Johnson, Mari Ostendorf,
- Abstract要約: SpeechLLMは、ガオカオのようなベンチマークで印象的な音声対話質問応答(SQA)性能を示した。
本研究では,音声からの話者認識に制限があり,音声のない会話の書き起こしからLLMに類似した振る舞いを示す。
我々は,SQAにおけるSpeechLLMのより正確な評価フレームワークとして,アイデンティティクリティカルな質問に焦点をあてたタスクを提案する。
- 参考スコア(独自算出の注目度): 41.10328851671422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, we have observed a rapid advancement in speech language models (SpeechLLMs), catching up with humans' listening and reasoning abilities. SpeechLLMs have demonstrated impressive spoken dialog question-answering (SQA) performance in benchmarks like Gaokao, the English listening test of the college entrance exam in China, which seemingly requires understanding both the spoken content and voice characteristics of speakers in a conversation. However, after carefully examining Gaokao's questions, we find the correct answers to many questions can be inferred from the conversation transcript alone, i.e.\ without speaker segmentation and identification. Our evaluation of state-of-the-art models Qwen-Audio and WavLLM on both Gaokao and our proposed "What Do You Like?" dataset shows a significantly higher accuracy in these context-based questions than in identity-critical questions, which can only be answered reliably with correct speaker identification. The results and analysis suggest that when solving SQA, the current SpeechLLMs exhibit limited speaker awareness from the audio and behave similarly to an LLM reasoning from the conversation transcription without sound. We propose that tasks focused on identity-critical questions could offer a more accurate evaluation framework of SpeechLLMs in SQA.
- Abstract(参考訳): 近年,音声言語モデル(SpeechLLMs)が急速に進歩し,人間の聴取能力や推論能力に追いついている。
音声LLMは、中国の大学入学試験の英語聴取テストであるガオカオのようなベンチマークで、音声対話質問応答(SQA)のパフォーマンスを印象的に示しており、会話中の話者の音声内容と音声特性の両方を理解する必要があるようだ。
しかし, ガオカオの質問を精査した結果, 話者分割や識別を伴わずに, 会話書き起こしのみから, 多数の質問に対する正しい回答を推測できることがわかった。
ガオカオと提案した「What Do You Like?」データセットによる最先端モデルQwen-AudioとWavLLMの評価は、これらの文脈に基づく質問において、アイデンティティクリティカルな質問よりもはるかに高い精度を示し、話者識別を確実に行うことができる。
その結果,SQAを解く際には,現在のSpeechLLMは音声からの話者認識が限られており,音声のない会話の書き起こしから起因したLLMと同様の動作を示すことが示唆された。
我々は,SQAにおけるSpeechLLMのより正確な評価フレームワークとして,アイデンティティクリティカルな質問に焦点をあてたタスクを提案する。
関連論文リスト
- Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Question-Interlocutor Scope Realized Graph Modeling over Key Utterances
for Dialogue Reading Comprehension [61.55950233402972]
本稿では,対話読解のためのキーワード抽出手法を提案する。
複数の連続した発話によって形成された単位に対して予測を行い、より多くの回答を含む発話を実現する。
発話のテキスト上に構築されたグラフとして,質問-対話者スコープ実現グラフ(QuISG)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T04:00:42Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Self-supervised Dialogue Learning for Spoken Conversational Question
Answering [29.545937716796082]
音声対話質問応答(SCQA)では、複数の会話を含む固定された音声文書を検索して分析することにより、対応する質問に対する回答を生成する。
本研究では,不整合判定,挿入検出,質問予測などの自己教師付き学習手法を導入し,コア参照の解決と対話のコヒーレンスを明確に把握する。
提案手法は,従来の事前学習言語モデルと比較して,より一貫性があり,意味があり,適切な応答を提供する。
論文 参考訳(メタデータ) (2021-06-04T00:09:38Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。