論文の概要: SpeakerSleuth: Evaluating Large Audio-Language Models as Judges for Multi-turn Speaker Consistency
- arxiv url: http://arxiv.org/abs/2601.04029v1
- Date: Wed, 07 Jan 2026 15:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.671457
- Title: SpeakerSleuth: Evaluating Large Audio-Language Models as Judges for Multi-turn Speaker Consistency
- Title(参考訳): SpeakerSleuth:マルチターン話者一貫性判定のための大規模オーディオ言語モデルの評価
- Authors: Jonggeun Lee, Junseong Pyo, Gyuhyeon Seo, Yohan Jo,
- Abstract要約: LALMがマルチターン対話における話者の一貫性を確実に判断できるかどうかを評価するベンチマークである SpeakerSleuth を提案する。
合成音声と実音声を対象とする4つの多種多様なデータセットを対象とした1,818の人間検証評価インスタンスを構築した。
モデルは音響的不整合を確実に検出するのに苦労している。
- 参考スコア(独自算出の注目度): 12.420484491347073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio-Language Models (LALMs) as judges have emerged as a prominent approach for evaluating speech generation quality, yet their ability to assess speaker consistency across multi-turn conversations remains unexplored. We present SpeakerSleuth, a benchmark evaluating whether LALMs can reliably judge speaker consistency in multi-turn dialogues through three tasks reflecting real-world requirements. We construct 1,818 human-verified evaluation instances across four diverse datasets spanning synthetic and real speech, with controlled acoustic difficulty. Evaluating nine widely-used LALMs, we find that models struggle to reliably detect acoustic inconsistencies. For instance, given audio samples of the same speaker's turns, some models overpredict inconsistency, whereas others are overly lenient. Models further struggle to identify the exact turns that are problematic. When other interlocutors' turns are provided together, performance degrades dramatically as models prioritize textual coherence over acoustic cues, failing to detect even obvious gender switches for a speaker. On the other hand, models perform substantially better in choosing the audio that best matches the speaker among several acoustic variants, demonstrating inherent acoustic discrimination capabilities. These findings expose a significant bias in LALMs: they tend to prioritize text over acoustics, revealing fundamental modality imbalances that need to be addressed to build reliable audio-language judges.
- Abstract(参考訳): 音声言語モデル(LALM)は、音声認識の品質を評価するための顕著なアプローチとして登場したが、マルチターン会話における話者の一貫性を評価する能力は、まだ解明されていない。
本稿では,LALM が実世界の要求を反映した3つのタスクを通じて,マルチターン対話における話者の一貫性を確実に判断できるかどうかを評価するベンチマークである SpeakerSleuth を提案する。
合成音声と実音声にまたがる4つの多様なデータセットに対して,音響的難易度を制御した1,818個の人間検証評価インスタンスを構築した。
9つの広く使われているLALMを評価すると、モデルが確実に音響的不整合を検出するのに苦労していることが分かる。
例えば、同じ話者のターンのオーディオサンプルを考えると、いくつかのモデルは矛盾を過度に予測するが、他のモデルは過度に寛容である。
モデルはさらに、問題となる正確なターンを特定するのに苦労する。
他のインターロケータのターンが一緒に提供されると、モデルが音響的手がかりよりもテキストコヒーレンスを優先し、スピーカーの明確な性別スイッチも検出できないため、性能が劇的に低下する。
一方、モデルは、複数の音響変種の中で話者に最もよく適合する音響を選択することで、より優れた音響識別能力を示す。
これらの発見は、LALMにおいて重大なバイアスを呈している: 音声よりもテキストを優先する傾向があり、信頼性の高いオーディオ音声判断器を構築するために対処する必要がある基本的なモダリティの不均衡を明らかにする。
関連論文リスト
- Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction [12.216811577733125]
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。
そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。
47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
論文 参考訳(メタデータ) (2025-12-16T19:26:44Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Speaker Verification in Agent-Generated Conversations [47.6291644653831]
近年の大型言語モデル (LLM) の成功は、様々な話者の特徴やスタイルに合わせたロールプレイング・会話エージェントを開発し、汎用的・特殊な対話タスクを遂行する能力を高めるために広く関心を集めている。
本研究では,2つの発話が同一話者から発せられるかどうかを検証することを目的とした,エージェント生成会話における話者検証という,新たな評価課題を紹介する。
論文 参考訳(メタデータ) (2024-05-16T14:46:18Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Automatic Evaluation of Speaker Similarity [0.0]
本研究では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
実験の結果, 話者埋め込みから話者類似度MUSHRAスコアを0.96精度で予測し, 発話レベルでは0.78ピアソンスコアまで有意な相関関係を示すことができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T11:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。