論文の概要: DeepTalk: Towards Seamless and Smart Speech Interaction with Adaptive Modality-Specific MoE
- arxiv url: http://arxiv.org/abs/2506.21864v1
- Date: Fri, 27 Jun 2025 02:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.060471
- Title: DeepTalk: Towards Seamless and Smart Speech Interaction with Adaptive Modality-Specific MoE
- Title(参考訳): DeepTalk:Adaptive Modality-Specific MoEによるシームレスでスマートな音声インタラクションを目指す
- Authors: Hang Shao, Heting Gao, Yunhang Shen, Jiawei Chen, Lijiang Li, Zuwei Long, Bo Tong, Ke Li, Xing Sun,
- Abstract要約: ネイティブマルチモーダル大言語モデル(MLLM)は、単一大言語モデル(LLM)を音声言語モデル(SLM)に再構成する。
DeepTalkは、Mixture of Experts (MoE)アーキテクチャに基づいた適応型モダリティエキスパート学習のためのフレームワークである。
- 参考スコア(独自算出の注目度): 29.707839212720472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Native multimodal large language models (MLLMs) restructure a single large language model (LLM) into a spoken language model (SLM) capable of both speech and text generation. Compared to modular and aligned MLLMs, native MLLMs preserve richer paralinguistic features such as emotion and prosody, and generate speech responses directly within the backbone LLM rather than using a separate speech decoder. This integration also results in lower response latency and smoother interaction. However, native MLLMs suffer from catastrophic forgetting and performance degradation because the available paired speech-text data is insufficient to support the pretraining of MLLMs compared to the vast amount of text data required to pretrain text LLMs. To address this issue, we propose DeepTalk, a framework for adaptive modality expert learning based on a Mixture of Experts (MoE) architecture. DeepTalk first adaptively distinguishes modality experts according to their modality load within the LLM. Each modality expert then undergoes specialized single-modality training, followed by joint multimodal collaborative training. As a result, DeepTalk incurs only a 5.5% performance drop compared to the original LLM, which is significantly lower than the average performance drop of over 20% typically seen in native MLLMs (such as GLM-4-Voice), and is on par with modular MLLMs. Meanwhile, the end-to-end dialogue latency remains within 0.5 seconds, ensuring a seamless and intelligent speech interaction experience. Code and models are released at https://github.com/talkking/DeepTalk.
- Abstract(参考訳): ネイティブ・マルチモーダル・大規模言語モデル(MLLM)は、単一の大きな言語モデル(LLM)を音声とテキスト生成の両方が可能な音声言語モデル(SLM)に再構成する。
モジュール型およびアライメント型MLLMと比較して、ネイティブMLLMは感情や韻律などのより豊かなパラ言語的特徴を保持し、別個の音声デコーダを使用するのではなく、バックボーンLLM内で直接音声応答を生成する。
この統合はレスポンスのレイテンシを低くし、よりスムーズなインタラクションをもたらす。
しかし,MLLMはテキストLLMの事前学習に要する大量のテキストデータと比較して,MLLMの事前学習を支援するには,ペア音声テキストデータが不十分であるため,破滅的な誤りや性能劣化に悩まされる。
この問題に対処するため,我々は,Mixture of Experts (MoE)アーキテクチャに基づく適応型モダリティエキスパート学習フレームワークであるDeepTalkを提案する。
DeepTalkはまず、LLM内のモダリティ負荷に応じて、モダリティの専門家を適応的に区別する。
それぞれのモダリティの専門家は、特別な単一モダリティトレーニングを行い、その後、共同で複数モダリティのコラボレーティブトレーニングを行う。
その結果、DeepTalk はオリジナルの LLM と比較して5.5% の性能低下しか生じず、これはネイティブ MLLM (GLM-4-Voice など) で一般的に見られる平均 20% 以上のパフォーマンス低下よりも大幅に低く、モジュール型 MLLM と同等である。
一方、エンドツーエンドの対話レイテンシは0.5秒以内に留まり、シームレスでインテリジェントな音声対話エクスペリエンスが保証される。
コードとモデルはhttps://github.com/talkking/DeepTalk.comで公開されている。
関連論文リスト
- SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation [17.56310064245171]
SALMON-N-omniは、トークン遷移バックボーンなしで動作する最初の単独のフルバイト音声LLMである。
LLMバックボーン内に新しい動的思考機構が備わっており、講演と聴取の間にモデルを学習することができる。
SALMON-N-Omniは、ターンテイキング、バックチャネルエコーキャンセル、コンテキスト依存バージェインなど、複雑な会話シナリオで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-05-17T08:13:59Z) - LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM [35.443850239910866]
本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。
提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
論文 参考訳(メタデータ) (2025-03-06T18:59:38Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - LLaMA-Omni: Seamless Speech Interaction with Large Language Models [43.28912243888652]
LLaMA-Omniは、大規模言語モデルとの低レイテンシで高品質な音声インタラクションのために設計された新しいモデルアーキテクチャである。
事前訓練された音声エンコーダ、音声適応器、LLM、ストリーミング音声デコーダを統合する。
レスポンスレイテンシは226ms以下で、コンテンツとスタイルの両方でより優れたレスポンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T17:34:34Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。