論文の概要: DuplexMamba: Enhancing Real-time Speech Conversations with Duplex and Streaming Capabilities
- arxiv url: http://arxiv.org/abs/2502.11123v1
- Date: Sun, 16 Feb 2025 13:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:55.011156
- Title: DuplexMamba: Enhancing Real-time Speech Conversations with Duplex and Streaming Capabilities
- Title(参考訳): DuplexMamba: デュプレックスとストリーミング機能を備えたリアルタイム音声会話の強化
- Authors: Xiangyu Lu, Wang Xu, Haoyu Wang, Hongyun Zhou, Haiyan Zhao, Conghui Zhu, Tiejun Zhao, Muyun Yang,
- Abstract要約: 本稿では,マンバをベースとした音声とテキストの対話のためのマルチモーダル・デュプレックスモデルを提案する。
DuplexMambaは同時入力処理と出力生成を可能にし、動的に調整してリアルタイムストリーミングをサポートする。
- 参考スコア(独自算出の注目度): 29.746405000412103
- License:
- Abstract: Real-time speech conversation is essential for natural and efficient human-machine interactions, requiring duplex and streaming capabilities. Traditional Transformer-based conversational chatbots operate in a turn-based manner and exhibit quadratic computational complexity that grows as the input size increases. In this paper, we propose DuplexMamba, a Mamba-based end-to-end multimodal duplex model for speech-to-text conversation. DuplexMamba enables simultaneous input processing and output generation, dynamically adjusting to support real-time streaming. Specifically, we develop a Mamba-based speech encoder and adapt it with a Mamba-based language model. Furthermore, we introduce a novel duplex decoding strategy that enables DuplexMamba to process input and generate output simultaneously. Experimental results demonstrate that DuplexMamba successfully implements duplex and streaming capabilities while achieving performance comparable to several recently developed Transformer-based models in automatic speech recognition (ASR) tasks and voice assistant benchmark evaluations.
- Abstract(参考訳): リアルタイム音声会話は、自然で効率的な人間と機械の相互作用に不可欠であり、二重化とストリーミング機能を必要とする。
従来のTransformerベースの会話チャットボットはターンベースで動作し、入力サイズが大きくなるにつれて増大する2次計算複雑性を示す。
本稿では,マンバをベースとしたマルチモーダル・デュプレックスモデルであるDuplexMambaを提案する。
DuplexMambaは同時入力処理と出力生成を可能にし、動的に調整してリアルタイムストリーミングをサポートする。
具体的には,マンバをベースとした音声エンコーダを開発し,それをマンバをベースとした言語モデルで適応させる。
さらに、DuplexMambaが入力を処理し、同時に出力を生成することができる新しいデュプレックスデコーディング戦略を導入する。
実験により、DuplexMambaは、最近開発された自動音声認識(ASR)タスクおよび音声アシスタントベンチマーク評価において、Transformerベースのモデルに匹敵する性能を保ちながら、デュプレックスとストリーミング機能を実装することに成功した。
関連論文リスト
- Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation [17.56310064245171]
SALMON-Omni(サルモン・オムニ)は、発話中に発声した音声を同時に聴くことができる音声理解・生成モデルである。
SALMON-Omniは、ターンテイキング、バージイン、エコーキャンセルのシナリオの管理に長けており、完全な対話型AIシステムの堅牢なプロトタイプとしての可能性を確立している。
論文 参考訳(メタデータ) (2024-11-27T08:38:57Z) - DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.6954598568836925]
DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。
Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。
提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2~4倍に向上させる。
論文 参考訳(メタデータ) (2024-11-23T08:02:03Z) - Mamba for Streaming ASR Combined with Unimodal Aggregation [7.6112706449833505]
最近提案された状態空間モデルであるMambaは、様々なタスクでTransformerにマッチまたは超える能力を示した。
本稿では,制御可能な将来情報を活用するためのルックアヘッド機構を提案する。
2つの中国語データセットを用いて実験を行い、提案モデルが競争力のあるASR性能を達成することを示した。
論文 参考訳(メタデータ) (2024-09-30T12:11:49Z) - Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation [88.33780780220091]
CoDi-2は汎用的でインタラクティブなマルチモーダル言語モデル(MLLM)である
複雑なマルチモーダルなインターリーブ命令に従うことができ、ICL(In-context Learning)、理性、チャット、編集などを実行することができる。
論文 参考訳(メタデータ) (2023-11-30T18:21:25Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。