論文の概要: LLM-Enhanced Dialogue Management for Full-Duplex Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2502.14145v2
- Date: Mon, 24 Feb 2025 19:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 11:58:57.333947
- Title: LLM-Enhanced Dialogue Management for Full-Duplex Spoken Dialogue Systems
- Title(参考訳): LLMによる全二重音声対話システムのための対話管理
- Authors: Hao Zhang, Weiwei Li, Rilin Chen, Vinay Kothapally, Meng Yu, Dong Yu,
- Abstract要約: 音声活動検出(VAD)モジュールは、完全なSDSにおける対話マネージャ(DM)のターンテイクを効率的に管理する。
音声を短時間に処理することにより、VADはリアルタイムな意思決定を可能にし、コア対話エンジン(CDE)は応答生成のためにのみ活性化される。
- 参考スコア(独自算出の注目度): 39.144526590642265
- License:
- Abstract: Achieving full-duplex communication in spoken dialogue systems (SDS) requires real-time coordination between listening, speaking, and thinking. This paper proposes a semantic voice activity detection (VAD) module as a dialogue manager (DM) to efficiently manage turn-taking in full-duplex SDS. Implemented as a lightweight (0.5B) LLM fine-tuned on full-duplex conversation data, the semantic VAD predicts four control tokens to regulate turn-switching and turn-keeping, distinguishing between intentional and unintentional barge-ins while detecting query completion for handling user pauses and hesitations. By processing input speech in short intervals, the semantic VAD enables real-time decision-making, while the core dialogue engine (CDE) is only activated for response generation, reducing computational overhead. This design allows independent DM optimization without retraining the CDE, balancing interaction accuracy and inference efficiency for scalable, next-generation full-duplex SDS.
- Abstract(参考訳): 音声対話システム(SDS)における全二重通信を実現するには、聴取、話し、思考のリアルタイム調整が必要である。
本稿では,全二重SDSにおけるターンテイクを効率的に管理する対話マネージャ(DM)として,セマンティック音声活動検出(VAD)モジュールを提案する。
全二重会話データに基づいて微調整された軽量(0.5B)LLMとして実装され、セマンティックVADは、4つの制御トークンを予測してターンスイッチングとターンキーピングを規制し、ユーザの一時停止やためらいを処理するためのクエリ補完を検出しながら、意図的なバージインと意図しないバージインを区別する。
入力音声を短時間に処理することにより、セマンティックVADはリアルタイムな意思決定を可能にし、コア対話エンジン(CDE)は応答生成のためにのみ活性化され、計算オーバーヘッドが減少する。
この設計により、CDEを再トレーニングすることなくDMの独立最適化が可能となり、スケーラブルで次世代のフルダブルプレックスSDSの相互作用精度と推論効率のバランスがとれる。
関連論文リスト
- FlexDuo: A Pluggable System for Enabling Full-Duplex Capabilities in Speech Dialogue Systems [8.43958948419218]
音声対話システムから制御を分離するフレキシブルフルプレイ制御モジュールを開発した。
会話における人間の情報フィルタリング機構に触発されて、明示的なアイドル状態を導入する。
偽の割り込み率を24.9%削減し、統合されたフルプレイ対話システムに比べて応答精度を7.6%向上させる。
論文 参考訳(メタデータ) (2025-02-19T06:51:34Z) - SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions [48.02083833667388]
仮想アシスタントインタラクションのための言語モデルであるSELMAを提示し,評価する。
オーディオエンコーダとLarge Language Modelの両方のパラメータ効率訓練に低ランク適応モジュールを用いる。
論文 参考訳(メタデータ) (2025-01-31T18:30:36Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Conversational Rubert for Detecting Competitive Interruptions in ASR-Transcribed Dialogues [0.6138671548064356]
割り込みを自動的に分類するシステムは、コールセンター、特に顧客満足度モニタリングとエージェントモニタリングのタスクで利用することができる。
我々は、ASRで書き起こされた顧客サポート電話対話からなる社内データセットをロシア語で作成し、テキストベースの割り込み分類モデルを開発した。
論文 参考訳(メタデータ) (2024-07-20T17:25:53Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - A Full-duplex Speech Dialogue Scheme Based On Large Language Models [23.994130020644842]
シームレスな対話を可能にする 生成生成対話システムです
システムは問い合わせ応答のためのトークンを生成し、ユーザを待ち、あるいは操作するために自律的な決定を行う。
論文 参考訳(メタデータ) (2024-05-29T20:05:46Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - DiactTOD: Learning Generalizable Latent Dialogue Acts for Controllable
Task-Oriented Dialogue Systems [15.087619144902776]
本稿では,潜在空間における対話行動を表現する対話行動モデル(DiactTOD)を提案する。
大規模なコーパスで事前トレーニングを行うと、DiactTODは対話を予測し制御し、制御可能な応答を生成する。
論文 参考訳(メタデータ) (2023-08-01T23:29:16Z) - Unsupervised Abstractive Dialogue Summarization for Tete-a-Tetes [49.901984490961624]
テテ-ア-テト(SuTaT)のための非教師なし抽象的対話要約モデルを提案する。
SuTaTは条件付き生成モジュールと2つの教師なし要約モジュールからなる。
実験の結果,SuTaTは自動評価と人的評価の両方において教師なし対話要約よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-15T03:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。