論文の概要: Language Model Can Listen While Speaking
- arxiv url: http://arxiv.org/abs/2408.02622v1
- Date: Mon, 5 Aug 2024 16:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 12:56:48.543808
- Title: Language Model Can Listen While Speaking
- Title(参考訳): 講演中に言語モデルを聴くことができる
- Authors: Ziyang Ma, Yakun Song, Chenpeng Du, Jian Cong, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen,
- Abstract要約: 聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
- 参考スコア(独自算出の注目度): 17.584201137311286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue serves as the most natural manner of human-computer interaction (HCI). Recent advancements in speech language models (SLM) have significantly enhanced speech-based conversational AI. However, these models are limited to turn-based conversation, lacking the ability to interact with humans in real-time spoken scenarios, for example, being interrupted when the generated content is not satisfactory. To address these limitations, we explore full duplex modeling (FDM) in interactive speech language models (iSLM), focusing on enhancing real-time interaction and, more explicitly, exploring the quintessential ability of interruption. We introduce a novel model design, namely listening-while-speaking language model (LSLM), an end-to-end system equipped with both listening and speaking channels. Our LSLM employs a token-based decoder-only TTS for speech generation and a streaming self-supervised learning (SSL) encoder for real-time audio input. LSLM fuses both channels for autoregressive generation and detects turn-taking in real time. Three fusion strategies -- early fusion, middle fusion, and late fusion -- are explored, with middle fusion achieving an optimal balance between speech generation and real-time interaction. Two experimental settings, command-based FDM and voice-based FDM, demonstrate LSLM's robustness to noise and sensitivity to diverse instructions. Our results highlight LSLM's capability to achieve duplex communication with minimal impact on existing systems. This study aims to advance the development of interactive speech dialogue systems, enhancing their applicability in real-world contexts.
- Abstract(参考訳): 対話は人間とコンピュータの相互作用(HCI)の最も自然な方法として機能する。
音声認識モデル(SLM)の最近の進歩は、音声に基づく会話AIを大幅に強化している。
しかし、これらのモデルはターンベースの会話に限られており、例えば、生成されたコンテンツが満足できない場合に中断されるような、リアルタイムの音声シナリオで人間と対話する能力が欠如している。
これらの制約に対処するため,対話型言語モデル (iSLM) におけるフル・デュプレックス・モデリング (FDM) について検討し,リアルタイムの対話性の向上に焦点をあてた。
本稿では,リスニングと話し方の両方を備えたエンドツーエンドシステムであるLSLM(リスニング・テンポス・ランゲージ・モデル)という,新しいモデル設計を提案する。
LSLMでは,音声生成にはトークンベースのデコーダのみのTS,リアルタイム音声入力にはストリーミング自己教師学習(SSL)エンコーダを採用している。
LSLMは両方のチャネルを融合して自己回帰生成し、ターンテイクをリアルタイムで検出する。
3つの融合戦略(早期融合、中核融合、後期融合)が検討され、中核融合は音声生成とリアルタイム相互作用の最適バランスを達成する。
コマンドベースのFDMと音声ベースのFDMという2つの実験的な設定は、LSLMのノイズに対する堅牢性と多様な命令に対する感度を示す。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
本研究は,対話型音声対話システムの開発を推進し,実環境における適用性を高めることを目的とする。
関連論文リスト
- OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [24.68804661538364]
全音声対話システムは人間と人間の相互作用を著しく反映している。
低レイテンシと自然なインタラクションを実現することは、大きな課題です。
エンドツーエンド音声対話システムは、効率的で自然なエンドツーエンドシステムを開発する上で有望な方向である。
OmniFlatten氏によって生成された対話のオーディオサンプルは、このWebサイトにある。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents [12.555910887280199]
フル同期音声対話モデルのための同期LLMを提案する。
実世界の音声対話データをわずか2k時間で有意義で自然な対話を生成するモデルを訓練する。
異なるデータセット上で訓練された2つのエージェント間の相互作用をシミュレートすることにより、モデルがフル同期対話に参加する能力を示す。
論文 参考訳(メタデータ) (2024-09-23T23:01:31Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。