論文の概要: Speculative End-Turn Detector for Efficient Speech Chatbot Assistant
- arxiv url: http://arxiv.org/abs/2503.23439v1
- Date: Sun, 30 Mar 2025 13:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.121094
- Title: Speculative End-Turn Detector for Efficient Speech Chatbot Assistant
- Title(参考訳): 効率的な音声チャットボットアシスタントのための投機的終端検出器
- Authors: Hyunjong Ok, Suho Yoo, Jaeho Lee,
- Abstract要約: エンドターン検出のための最初の公開データセットであるETDデータセットを紹介する。
また,資源制約環境におけるリアルタイムETDを改善するために,効率と精度のバランスをとる新しい協調推論フレームワークであるSpeculativeETDを提案する。
実験により,提案したSpeculativeETDは,必要な計算量を低く保ちながら,ETDの精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 11.136112399898481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken dialogue systems powered by large language models have demonstrated remarkable abilities in understanding human speech and generating appropriate spoken responses. However, these systems struggle with end-turn detection (ETD) -- the ability to distinguish between user turn completion and hesitation. This limitation often leads to premature or delayed responses, disrupting the flow of spoken conversations. In this paper, we introduce the ETD Dataset, the first public dataset for end-turn detection. The ETD dataset consists of both synthetic speech data generated with text-to-speech models and real-world speech data collected from web sources. We also propose SpeculativeETD, a novel collaborative inference framework that balances efficiency and accuracy to improve real-time ETD in resource-constrained environments. Our approach jointly employs a lightweight GRU-based model, which rapidly detects the non-speaking units in real-time on local devices, and a high-performance Wav2vec-based model running on the server to make a more challenging classification of distinguishing turn ends from mere pauses. Experiments demonstrate that the proposed SpeculativeETD significantly improves ETD accuracy while keeping the required computations low. Datasets and code will be available after the review.
- Abstract(参考訳): 大規模言語モデルを用いた音声対話システムは、人間の発話を理解し、適切な音声応答を生成する際、顕著な能力を示した。
しかし、これらのシステムはエンドターン検出(ETD)に苦慮している。
この制限は、しばしば未熟または遅延反応を引き起こし、会話の流れを乱す。
本稿では,エンドターン検出のための最初の公開データセットであるETD Datasetを紹介する。
ETDデータセットは、テキスト音声モデルで生成された合成音声データと、Webソースから収集された実世界の音声データの両方から構成される。
また,資源制約環境におけるリアルタイムETDを改善するために,効率と精度のバランスをとる新しい協調推論フレームワークであるSpeculativeETDを提案する。
提案手法では,ローカルデバイス上での非話者単位を高速に検出する軽量なGRUモデルと,サーバ上で動作している高性能なWav2vecモデルを用いて,ターンエンドと単に停止時間とを区別するより難しい分類を行う。
実験により,提案したSpeculativeETDは,必要な計算量を低く保ちながら,ETDの精度を大幅に向上することが示された。
レビューの後、データセットとコードは利用可能になる。
関連論文リスト
- SPADE: Systematic Prompt Framework for Automated Dialogue Expansion in Machine-Generated Text Detection [15.626772502710867]
本稿では,構造化プロンプト手法を用いて,合成ユーザ対話生成のための5つの新しいデータ拡張フレームワークを提案する。
提案手法は14種類の新しい対話データセットを生成し、7つのMGT検出モデルに対してベンチマークを行う。
実世界のエージェントが将来の相手発話の知識を欠いていることを考慮し、オンライン対話検出をシミュレートし、チャット履歴の長さと検出精度の関係について検討する。
論文 参考訳(メタデータ) (2025-03-19T09:32:52Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Text Injection for Capitalization and Turn-Taking Prediction in Speech
Models [45.94388391693112]
本研究では,E2Eモデルでしばしば実行される非ASRタスクである補助タスクに対するテキストインジェクションの利用について検討する。
テキストインジェクション法により,長期データに対するキャピタライゼーション性能が向上することを示す。
論文 参考訳(メタデータ) (2023-08-14T18:28:04Z) - Improving Code-Switching and Named Entity Recognition in ASR with Speech
Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。
コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T15:50:13Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。