論文の概要: Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2509.23938v1
- Date: Sun, 28 Sep 2025 15:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.544992
- Title: Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems
- Title(参考訳): 簡単なターン:全二重音声対話システムにおけるロバストなターンタイキングのための音響・言語モダリティの統合
- Authors: Guojian Li, Chengyou Wang, Hongfei Xue, Shuiyuan Wang, Dehui Gao, Zihan Zhang, Yuke Lin, Wenjie Li, Longshuai Xiao, Zhonghua Fu, Lei Xie,
- Abstract要約: Easy Turnはオープンソースのモジュール型ターンテイク検出モデルである。
音声と言語によるバイモーダル情報を統合し、対話のターン状態を予測する。
データとモデルはGitHubで公開される予定だ。
- 参考スコア(独自算出の注目度): 24.67635563417753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-duplex interaction is crucial for natural human-machine communication, yet remains challenging as it requires robust turn-taking detection to decide when the system should speak, listen, or remain silent. Existing solutions either rely on dedicated turn-taking models, most of which are not open-sourced. The few available ones are limited by their large parameter size or by supporting only a single modality, such as acoustic or linguistic. Alternatively, some approaches finetune LLM backbones to enable full-duplex capability, but this requires large amounts of full-duplex data, which remain scarce in open-source form. To address these issues, we propose Easy Turn, an open-source, modular turn-taking detection model that integrates acoustic and linguistic bimodal information to predict four dialogue turn states: complete, incomplete, backchannel, and wait, accompanied by the release of Easy Turn trainset, a 1,145-hour speech dataset designed for training turn-taking detection models. Compared to existing open-source models like TEN Turn Detection and Smart Turn V2, our model achieves state-of-the-art turn-taking detection accuracy on our open-source Easy Turn testset. The data and model will be made publicly available on GitHub.
- Abstract(参考訳): しかし、システムがいつ話すべきか、耳を傾けたり、沈黙し続けるべきかを決定するためには、堅牢なターンテイク検出が必要であるため、依然として困難である。
既存のソリューションは専用のターンテイクモデルに依存しているが、そのほとんどはオープンソースではない。
利用可能な数少ないものはその大きなパラメータサイズによって制限されるか、音響や言語のような単一のモダリティのみをサポートすることによって制限される。
あるいは、LLMバックボーンを微細化してフルデュプレックス機能を実現する方法もあるが、これはオープンソース形式では不十分な大量のフルデュプレックスデータを必要とする。
これらの問題に対処するため,オープンソースのモジュール型ターンテイク検出モデルであるEasy Turnを提案する。これは,ターンテイク検出モデルのトレーニング用に設計された1,145時間の音声データセットであるEasy Turn Trainetのリリースに伴って,音響的および言語的バイモーダル情報を統合して,4つのダイアログ状態(完全,不完全,バックチャネル,待機)を予測する。
TEN Turn DetectionやSmart Turn V2といった既存のオープンソースモデルと比較して、私たちのモデルはオープンソースのEasy Turnテストセットで最先端のターンテイク検出精度を実現しています。
データとモデルはGitHubで公開される予定だ。
関連論文リスト
- Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction [110.38946048535033]
本稿では,音声認識のための最初のプロダクション対応オープンソースソリューションであるStep-Audioを紹介する。
1) 統合された理解と生成を実現する統合音声テキストマルチモーダルモデル、2) 安価な音声クローニングフレームワークを確立し、蒸留によりオープンソースで軽量なStep-Audio-TTS-3Bモデルを生産する生成音声データエンジン、3) 方言、感情、歌、RAP間の動的調整を可能にする命令駆動型微制御システム、4) ツールコールとロールプレイング機能を備えた強化認知アーキテクチャ。
論文 参考訳(メタデータ) (2025-02-17T15:58:56Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities [0.0]
Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。
限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。