論文の概要: FlexDuo: A Pluggable System for Enabling Full-Duplex Capabilities in Speech Dialogue Systems
- arxiv url: http://arxiv.org/abs/2502.13472v1
- Date: Wed, 19 Feb 2025 06:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:32.893680
- Title: FlexDuo: A Pluggable System for Enabling Full-Duplex Capabilities in Speech Dialogue Systems
- Title(参考訳): FlexDuo:音声対話システムにおける全二重機能を実現するプラグインシステム
- Authors: Borui Liao, Yulong Xu, Jiao Ou, Kaiyuan Yang, Weihua Jian, Pengfei Wan, Di Zhang,
- Abstract要約: 音声対話システムから制御を分離するフレキシブルフルプレイ制御モジュールを開発した。
会話における人間の情報フィルタリング機構に触発されて、明示的なアイドル状態を導入する。
偽の割り込み率を24.9%削減し、統合されたフルプレイ対話システムに比べて応答精度を7.6%向上させる。
- 参考スコア(独自算出の注目度): 8.43958948419218
- License:
- Abstract: Full-Duplex Speech Dialogue Systems (Full-Duplex SDS) have significantly enhanced the naturalness of human-machine interaction by enabling real-time bidirectional communication. However, existing approaches face challenges such as difficulties in independent module optimization and contextual noise interference due to highly coupled architectural designs and oversimplified binary state modeling. This paper proposes FlexDuo, a flexible full-duplex control module that decouples duplex control from spoken dialogue systems through a plug-and-play architectural design. Furthermore, inspired by human information-filtering mechanisms in conversations, we introduce an explicit Idle state. On one hand, the Idle state filters redundant noise and irrelevant audio to enhance dialogue quality. On the other hand, it establishes a semantic integrity-based buffering mechanism, reducing the risk of mutual interruptions while ensuring accurate response transitions. Experimental results on the Fisher corpus demonstrate that FlexDuo reduces the false interruption rate by 24.9% and improves response accuracy by 7.6% compared to integrated full-duplex dialogue system baselines. It also outperforms voice activity detection (VAD) controlled baseline systems in both Chinese and English dialogue quality. The proposed modular architecture and state-based dialogue model provide a novel technical pathway for building flexible and efficient duplex dialogue systems.
- Abstract(参考訳): 全二重音声対話システム(Full-Duplex SDS)は、リアルタイム双方向通信を実現することにより、人間と機械の相互作用の自然性を大幅に向上させた。
しかし、既存のアプローチでは、高度に結合したアーキテクチャ設計と単純化されたバイナリ状態モデリングによる独立モジュール最適化の難しさやコンテキストノイズ干渉といった課題に直面している。
本稿では、プラグアンドプレイアーキテクチャ設計により、音声対話システムから二重制御を分離するフレキシブルフル二重制御モジュールFlexDuoを提案する。
さらに,会話における人間の情報フィルタリング機構に触発されて,明示的なアイドル状態を導入する。
一方、Idle状態は冗長ノイズと無関係音声をフィルタし、対話品質を向上させる。
一方、セマンティックな整合性に基づくバッファリング機構を確立し、相互割り込みのリスクを低減し、正確な応答遷移を保証する。
Fisher corpus 実験の結果、FlexDuo は偽の割り込み率を24.9%削減し、統合された全二重対話システムに比べて応答精度を7.6%改善した。
また、中国語と英語の対話品質において、音声活動検出(VAD)のベースラインシステムよりも優れている。
モジュールアーキテクチャと状態に基づく対話モデルは、柔軟で効率的な二重対話システムを構築するための新しい技術経路を提供する。
関連論文リスト
- LLM-Enhanced Dialogue Management for Full-Duplex Spoken Dialogue Systems [39.144526590642265]
音声活動検出(VAD)モジュールは、完全なSDSにおける対話マネージャ(DM)のターンテイクを効率的に管理する。
音声を短時間に処理することにより、VADはリアルタイムな意思決定を可能にし、コア対話エンジン(CDE)は応答生成のためにのみ活性化される。
論文 参考訳(メタデータ) (2025-02-19T23:15:13Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Are cascade dialogue state tracking models speaking out of turn in
spoken dialogues? [1.786898113631979]
本稿では,対話状態追跡のような複雑な環境下でのアートシステムのエラーを包括的に解析する。
音声MultiWozに基づいて、音声対話システムとチャットベースの対話システムとのギャップを埋めるためには、非カテゴリースロットの値の誤差に対処することが不可欠である。
論文 参考訳(メタデータ) (2023-11-03T08:45:22Z) - Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue
System [120.70726465994781]
マルチモーダル音声対話システムにより、電話ベースのエージェントが、人間のような顧客と対話できる。
製品で学んだ教訓を共有するために、Conversation Duplex Alibabaのインテリジェントなカスタマサービスをデプロイしています。
オンラインA/B実験は,提案システムにおいて応答遅延を50%低減できることを示した。
論文 参考訳(メタデータ) (2022-05-30T12:41:23Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Multi-Domain Dialogue Acts and Response Co-Generation [34.27525685962274]
本稿では,対話行動と応答を同時に生成するニューラルコジェネレーションモデルを提案する。
我々のモデルは, 自動評価と人的評価の両方において, いくつかの最先端モデルに対して, 極めて良好な改善を達成している。
論文 参考訳(メタデータ) (2020-04-26T12:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。