論文の概要: Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction
- arxiv url: http://arxiv.org/abs/2512.14865v1
- Date: Tue, 16 Dec 2025 19:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.765346
- Title: Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction
- Title(参考訳): 音声マルチチャレンジ:自然との対話における音声対話システムのマルチターン評価
- Authors: Advait Gosai, Tyler Vuong, Utkarsh Tyagi, Steven Li, Wenjia You, Miheer Bavare, Arda Uçar, Zhongwang Fang, Brian Jang, Bing Liu, Yunzhong He,
- Abstract要約: 本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。
そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。
47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
- 参考スコア(独自算出の注目度): 12.216811577733125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end (E2E) spoken dialogue systems are increasingly replacing cascaded pipelines for voice-based human-AI interaction, processing raw audio directly without intermediate transcription. Existing benchmarks primarily evaluate these models on synthetic speech and single-turn tasks, leaving realistic multi-turn conversational ability underexplored. We introduce Audio MultiChallenge, an open-source benchmark to evaluate E2E spoken dialogue systems under natural multi-turn interaction patterns. Building on the text-based MultiChallenge framework, which evaluates Inference Memory, Instruction Retention, and Self Coherence, we introduce a new axis Voice Editing that tests robustness to mid-utterance speech repairs and backtracking. We further augment each axis to the audio modality, such as introducing Audio-Cue challenges for Inference Memory that require recalling ambient sounds and paralinguistic signals beyond semantic content. We curate 452 conversations from 47 speakers with 1,712 instance-specific rubrics through a hybrid audio-native agentic and human-in-the-loop pipeline that exposes model failures at scale while preserving natural disfluencies found in unscripted human speech. Our evaluation of proprietary and open-source models reveals that even frontier models struggle on our benchmark, with Gemini 3 Pro Preview (Thinking), our highest-performing model achieving a 54.65% pass rate. Error analysis shows that models fail most often on our new axes and that Self Coherence degrades with longer audio context. These failures reflect difficulty of tracking edits, audio cues, and long-range context in natural spoken dialogue. Audio MultiChallenge provides a reproducible testbed to quantify them and drive improvements in audio-native multi-turn interaction capability.
- Abstract(参考訳): E2E(End-to-end)音声対話システムは、音声ベースの人間とAIのインタラクションにカスケードパイプラインを置き換え、中間転写なしで生音声を直接処理するようになっている。
既存のベンチマークでは、これらのモデルを合成音声や一旋律タスクで評価し、現実的な多旋律会話能力を過小評価している。
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。
Inference Memory, Instruction Retention, Self Coherenceを評価したテキストベースのMultiChallengeフレームワークをベースとして, 音声の修正とバックトラックに対する堅牢性をテストする新しい軸の音声編集を導入する。
我々はさらに、環境音やセマンティックコンテンツ以外のパラ言語信号のリコールを必要とする推論メモリのためのオーディオキュー課題の導入など、音声モダリティに対する各軸の強化を行う。
我々は、47の話者と1,712のインスタンス固有のルーブリックとの452の会話を、音声ネイティブのエージェントとヒューマン・イン・ザ・ループのパイプラインを介してキュレートする。
プロプライエタリモデルとオープンソースモデルの評価では、フロンティアモデルでさえベンチマークに苦戦していることが分かり、Gemini 3 Pro Preview (Thinking) では、最高のパフォーマンスモデルである54.65%のパスレートを達成した。
エラー解析により、モデルは新しい軸で最も頻繁に失敗し、より長いオーディオコンテキストで自己一貫性が劣化することが示された。
これらの失敗は、自然な音声対話における編集、音声の手がかり、長距離文脈の追跡の難しさを反映している。
Audio MultiChallengeは、それらを定量化し、オーディオネイティブなマルチターンインタラクション機能を改善する再現可能なテストベッドを提供する。
関連論文リスト
- AV-Dialog: Spoken Dialogue Models with Audio-Visual Input [16.289812372606168]
AV-Dialogは、音声と視覚の両方を使ってターゲット話者を追跡し、ターンテイクを予測し、一貫性のある応答を生成する最初のフレームワークである。
実験により、AV-Dialogは干渉下での音声のみのモデルよりも優れ、転写エラーの低減、ターンテイク予測の改善、人格の対話品質の向上が示されている。
これらの結果から,実環境,騒音環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境,環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境、環境
論文 参考訳(メタデータ) (2025-11-14T09:56:26Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。
これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。
この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文 参考訳(メタデータ) (2024-07-02T03:22:41Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。