論文の概要: DeepOmni: Towards Seamless and Smart Speech Interaction with Adaptive Modality-Specific MoE
- arxiv url: http://arxiv.org/abs/2506.21864v3
- Date: Mon, 27 Oct 2025 08:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.679171
- Title: DeepOmni: Towards Seamless and Smart Speech Interaction with Adaptive Modality-Specific MoE
- Title(参考訳): DeepOmni: 適応型モダリティ-特有なMoEによるシームレス・スマート音声インタラクションを目指して
- Authors: Hang Shao, Heting Gao, Yunhang Shen, Jiawei Chen, Zuwei Long, Dong Yang, Ke Li, Xing Sun,
- Abstract要約: ネイティブマルチモーダル大言語モデル(MLLM)は、単一大言語モデル(LLM)を音声言語モデル(SLM)に再構成する。
DeepTalkは、Mixture of Experts (MoE)アーキテクチャに基づいた適応型モダリティエキスパート学習のためのフレームワークである。
- 参考スコア(独自算出の注目度): 37.45331469261743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Native multimodal large language models (MLLMs) restructure a single large language model (LLM) into a spoken language model (SLM) capable of both speech and text generation. Compared to modular and aligned MLLMs, native MLLMs preserve richer paralinguistic features such as emotion and prosody, and generate speech responses directly within the backbone LLM rather than using a separate speech decoder. This integration also results in lower response latency and smoother interaction. However, native MLLMs suffer from catastrophic forgetting and performance degradation because the available paired speech-text data is insufficient to support the pretraining of MLLMs compared to the vast amount of text data required to pretrain text LLMs. To address this issue, we propose DeepTalk, a framework for adaptive modality expert learning based on a Mixture of Experts (MoE) architecture. DeepTalk first adaptively distinguishes modality experts according to their modality load within the LLM. Each modality expert then undergoes specialized single-modality training, followed by joint multimodal collaborative training. As a result, DeepTalk incurs only a 5.5% performance drop compared to the original LLM, which is significantly lower than the average performance drop of over 20% typically seen in native MLLMs (such as GLM-4-Voice), and is on par with modular MLLMs. Meanwhile, the end-to-end dialogue latency remains within 0.5 seconds, ensuring a seamless and intelligent speech interaction experience. Code and models are released at https://github.com/talkking/DeepTalk.
- Abstract(参考訳): ネイティブ・マルチモーダル・大規模言語モデル(MLLM)は、単一の大きな言語モデル(LLM)を音声とテキスト生成の両方が可能な音声言語モデル(SLM)に再構成する。
モジュール型およびアライメント型MLLMと比較して、ネイティブMLLMは感情や韻律などのより豊かなパラ言語的特徴を保持し、別個の音声デコーダを使用するのではなく、バックボーンLLM内で直接音声応答を生成する。
この統合はレスポンスのレイテンシを低くし、よりスムーズなインタラクションをもたらす。
しかし,MLLMはテキストLLMの事前学習に要する大量のテキストデータと比較して,MLLMの事前学習を支援するには,ペア音声テキストデータが不十分であるため,破滅的な誤りや性能劣化に悩まされる。
この問題に対処するため,我々は,Mixture of Experts (MoE)アーキテクチャに基づく適応型モダリティエキスパート学習フレームワークであるDeepTalkを提案する。
DeepTalkはまず、LLM内のモダリティ負荷に応じて、モダリティの専門家を適応的に区別する。
それぞれのモダリティの専門家は、特別な単一モダリティトレーニングを行い、その後、共同で複数モダリティのコラボレーティブトレーニングを行う。
その結果、DeepTalk はオリジナルの LLM と比較して5.5% の性能低下しか生じず、これはネイティブ MLLM (GLM-4-Voice など) で一般的に見られる平均 20% 以上のパフォーマンス低下よりも大幅に低く、モジュール型 MLLM と同等である。
一方、エンドツーエンドの対話レイテンシは0.5秒以内に留まり、シームレスでインテリジェントな音声対話エクスペリエンスが保証される。
コードとモデルはhttps://github.com/talkking/DeepTalk.comで公開されている。
関連論文リスト
- MiLorE-SSL: Scaling Multilingual Capabilities in Self-Supervised Models without Forgetting [69.6938830307759]
MiLorE-SSLは、LoRAモジュールとソフトミキシング・オブ・エキスパート・メカニズムを組み合わせて、効率的な連続多言語トレーニングを行う軽量フレームワークである。
LoRAは効率的な低ランク適応を提供するが、ソフトなMoEは言語間のフレキシブルな専門家共有を促進し、言語間の干渉を減らす。
ML-SUPERBの実験では、MiLorE-SSLは新しい言語で高いパフォーマンスを実現し、2.14%のトレーニング可能なパラメータで既存の言語での性能を向上させることが示されている。
論文 参考訳(メタデータ) (2026-01-28T06:48:52Z) - SLAM-LLM: A Modular, Open-Source Multimodal Large Language Model Framework and Best Practice for Speech, Language, Audio and Music Processing [77.87631792556942]
SLAM-LLMは、カスタマイズされたマルチモーダル言語モデル(MLLM)をトレーニングするために設計されたオープンソースのフレームワークである。
異なるエンコーダ、プロジェクタ、LCM、パラメータ効率の良い微調整プラグインのモジュール構成を提供する。
これには、ASR(Automatic Speech Recognition)、AAC(Automated Audio Captioning)、MC(Music Captioning)といった高性能なチェックポイントが含まれている。
論文 参考訳(メタデータ) (2026-01-14T11:25:36Z) - Bridging the gap: A comparative exploration of Speech-LLM and end-to-end architecture for multilingual conversational ASR [16.090902570653803]
本稿では、細調整されたWhisperとmHuBERTエンコーダをLLMと組み合わせたLLMベースのASRフレームワークを提案する。
CER/WERは10.69%で、上位1位にランクインしている。
論文 参考訳(メタデータ) (2026-01-04T10:08:53Z) - MCAT: Scaling Many-to-Many Speech-to-Text Translation with MLLMs to 70 Languages [48.78290197341843]
本稿では,2つの革新を含む費用対効果の高い音声テキスト翻訳フレームワークを提案する。
まず,カリキュラム学習とデータバランス戦略を活用する言語スケーリング手法を導入し,MLLMがサポートする言語カバレッジを70言語に拡張する。
第二に、最適化された音声アダプタモジュールは、音声列の長さを30トークンに短縮するように設計されている。
論文 参考訳(メタデータ) (2025-12-01T10:39:12Z) - SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation [17.56310064245171]
SALMON-N-omniは、トークン遷移バックボーンなしで動作する最初の単独のフルバイト音声LLMである。
LLMバックボーン内に新しい動的思考機構が備わっており、講演と聴取の間にモデルを学習することができる。
SALMON-N-Omniは、ターンテイキング、バックチャネルエコーキャンセル、コンテキスト依存バージェインなど、複雑な会話シナリオで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-05-17T08:13:59Z) - LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors [22.845623101142483]
音声エンコーダと大言語モデル(LLM)を橋渡しする新しいパラダイムであるLegoSLMを提案する。
好成績なUSMモデルとGemmaモデルを用いて,提案手法がASRおよび音声翻訳タスクにおいて良好な性能を示すことを示す。
論文 参考訳(メタデータ) (2025-05-16T15:15:19Z) - LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM [35.443850239910866]
本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。
提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
論文 参考訳(メタデータ) (2025-03-06T18:59:38Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - LLaMA-Omni: Seamless Speech Interaction with Large Language Models [43.28912243888652]
LLaMA-Omniは、大規模言語モデルとの低レイテンシで高品質な音声インタラクションのために設計された新しいモデルアーキテクチャである。
事前訓練された音声エンコーダ、音声適応器、LLM、ストリーミング音声デコーダを統合する。
レスポンスレイテンシは226ms以下で、コンテンツとスタイルの両方でより優れたレスポンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T17:34:34Z) - Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。