論文の概要: Real-Time Textless Dialogue Generation
- arxiv url: http://arxiv.org/abs/2501.04877v1
- Date: Wed, 08 Jan 2025 23:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:43.383853
- Title: Real-Time Textless Dialogue Generation
- Title(参考訳): リアルタイムテキストレス対話生成
- Authors: Long Mai, Julie Carson-Berndsen,
- Abstract要約: リアルタイム・テキストレス音声対話生成モデル(RTTL-DG)を提案する。
本システムでは,音声音声を直接処理することで,流体の旋回と応答を最小限の遅延で生成する。
我々のモデルでは、バックチャネル、フィルタ、笑い、その他のパラ言語信号が組み込まれており、しばしばカスケード対話システムでは欠落している。
- 参考スコア(独自算出の注目度): 23.456302461693053
- License:
- Abstract: Recent advancements in large language models (LLMs) have led to significant progress in text-based dialogue systems. These systems can now generate high-quality responses that are accurate and coherent across a wide range of topics and tasks. However, spoken dialogue systems still lag behind in terms of naturalness. They tend to produce robotic interactions, with issues such as slow response times, overly generic or cautious replies, and a lack of natural rhythm and fluid turn-taking. This shortcoming is largely due to the over-reliance on the traditional cascaded design, which involve separate, sequential components, as well as the use of text as an intermediate representation. This paper propose a real-time, textless spoken dialogue generation model (RTTL-DG) that aims to overcome these challenges. Our system enables fluid turn-taking and generates responses with minimal delay by processing streaming spoken conversation directly. Additionally, our model incorporates backchannels, filters, laughter, and other paralinguistic signals, which are often absent in cascaded dialogue systems, to create more natural and human-like interactions. The implementations and generated samples are available in our repository: https://github.com/mailong25/rts2s-dg
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、テキストベースの対話システムに大きな進歩をもたらした。
これらのシステムは、様々なトピックやタスクに対して正確で一貫性のある高品質な応答を生成することができる。
しかし、音声対話システムは自然性という点ではいまだに遅れている。
遅い応答時間、過度にジェネリックまたは慎重な応答、自然なリズムと流体のターンテイクの欠如など、ロボットの相互作用を生み出す傾向がある。
この欠点は主に、独立したシーケンシャルなコンポーネントを含む従来のカスケード設計への過度な依存と、中間表現としてのテキストの使用によるものである。
本稿では,これらの課題を克服するためのリアルタイムテキストレス音声対話生成モデル(RTTL-DG)を提案する。
本システムでは,音声音声を直接処理することで,流体の旋回と応答を最小限の遅延で生成する。
さらに、我々のモデルでは、バックチャネル、フィルタ、笑い、その他のパラ言語信号が組み込まれています。
実装と生成されたサンプルは、私たちのリポジトリで利用可能です。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems [7.326036800127981]
テキストと音声の両方を処理するマルチモーダル言語モデルは、音声対話システムに応用できる可能性がある。
音声応答を生成するには、事前に書かれた応答を生成する必要があり、音声シーケンスはテキストシーケンスよりもかなり長い。
本研究では,テキストと音声の並列生成を支援するために,言語モデルの入力シーケンスと出力シーケンスを拡張することで,これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-18T09:23:54Z) - Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts [11.067252960486272]
本稿では,事前学習した言語モデルを用いて,リアルタイム対話型会話をシミュレートする簡易かつ汎用的な手法を提案する。
本稿では,インスタントメッセージ対話と音声会話の2つのケーススタディを用いて,この手法の可能性を実証する。
論文 参考訳(メタデータ) (2024-05-21T21:14:31Z) - Multimodal Contextual Dialogue Breakdown Detection for Conversational AI Models [1.4199474167684119]
マルチモーダルな文脈対話ブレークダウン(MultConDB)モデルを導入する。
このモデルは、69.27のF1を達成することで、他の既知の最高のモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-04-11T23:09:18Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。