論文の概要: Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics
- arxiv url: http://arxiv.org/abs/2503.01174v1
- Date: Mon, 03 Mar 2025 04:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:44.148052
- Title: Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics
- Title(参考訳): トーキング・ターン:ターン・タイキング・ダイナミクスに基づくオーディオ基礎モデルのベンチマーク
- Authors: Siddhant Arora, Zhiyun Lu, Chung-Cheng Chiu, Ruoming Pang, Shinji Watanabe,
- Abstract要約: 本稿では,音声対話システムのターンテイク能力を評価するための新しい評価プロトコルを提案する。
本稿では,既存の音声対話システムをターンテイクイベントの実行能力に基づいて評価する,初めての包括的ユーザスタディを提案する。
我々は、高度な対話型AIシステムの開発を促進するために、評価プラットフォームをオープンソース化する。
- 参考スコア(独自算出の注目度): 54.03209351287654
- License:
- Abstract: The recent wave of audio foundation models (FMs) could provide new capabilities for conversational modeling. However, there have been limited efforts to evaluate these audio FMs comprehensively on their ability to have natural and interactive conversations. To engage in meaningful conversation with the end user, we would want the FMs to additionally perform a fluent succession of turns without too much overlapping speech or long stretches of silence. Inspired by this, we ask whether the recently proposed audio FMs can understand, predict, and perform turn-taking events? To answer this, we propose a novel evaluation protocol that can assess spoken dialog system's turn-taking capabilities using a supervised model as a judge that has been trained to predict turn-taking events in human-human conversations. Using this protocol, we present the first comprehensive user study that evaluates existing spoken dialogue systems on their ability to perform turn-taking events and reveal many interesting insights, such as they sometimes do not understand when to speak up, can interrupt too aggressively and rarely backchannel. We further evaluate multiple open-source and proprietary audio FMs accessible through APIs on carefully curated test benchmarks from Switchboard to measure their ability to understand and predict turn-taking events and identify significant room for improvement. We will open source our evaluation platform to promote the development of advanced conversational AI systems.
- Abstract(参考訳): 近年の音声基礎モデル(FM)は、対話型モデリングに新たな機能を提供する可能性がある。
しかし、これらの音声FMを、自然と対話的な会話ができる能力に包括的に評価する努力は限られている。
エンドユーザーと有意義な会話をするために、私たちはFMに、過剰に重複するスピーチや長い沈黙を伴わずに、ターンの流動的な継承を実行させたいと考えています。
これに触発されて、最近提案された音声FMが、ターンテイクイベントを理解し、予測し、実行できるかを問う。
そこで本研究では,人間の会話におけるターンテイク事象の予測を訓練した審査員として,教師付きモデルを用いて,音声対話システムのターンテイク能力を評価する新しい評価プロトコルを提案する。
このプロトコルを用いて,既存の音声対話システムをターンテイクイベントの実行能力で評価する最初の総合的ユーザスタディを提示する。
さらに、Switchboardから慎重にキュレートされたテストベンチマーク上で、APIを通じてアクセス可能な複数のオープンソースおよびプロプライエタリなオーディオFMを評価し、ターンテイクイベントを理解し予測し、改善の余地を特定する。
我々は、高度な対話型AIシステムの開発を促進するために、評価プラットフォームをオープンソース化する。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Turn-taking and Backchannel Prediction with Acoustic and Large Language
Model Fusion [38.78341787348164]
大規模言語モデル(LLM)を用いたニューラル音響モデルを用いた音声対話におけるターンテイクとバックチャネル位置の連続予測手法を提案する。
Switchboardの人間と人間の会話データセットの実験は、我々のアプローチが単一のモダリティでベースラインモデルより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T08:59:07Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Joining the Conversation: Towards Language Acquisition for Ad Hoc Team
Play [1.370633147306388]
本稿では,アドホックチームプレイ問題の特定の形態として,協調言語獲得の問題を提案し,考察する。
本稿では, 話者の意図と聞き手の意味を, 言語利用者チーム間のコミュニケーションの観察から推定する確率論的モデルを提案する。
論文 参考訳(メタデータ) (2023-05-20T16:59:27Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。