論文の概要: MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech
- arxiv url: http://arxiv.org/abs/2509.25131v1
- Date: Mon, 29 Sep 2025 17:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.180526
- Title: MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech
- Title(参考訳): MGM-Omni:Omni LLMの個人化長軸音声への応用
- Authors: Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia,
- Abstract要約: MGM-オムニ (MGM-Omni) は、Omni-modalな理解と表現力のある長距離音声生成のための統一オムニLLMである。
MGM-Omniは、リアルタイム音声生成からマルチモーダル推論をきれいに分離するデュアルトラックのトークンベースのアーキテクチャを採用している。
- 参考スコア(独自算出の注目度): 64.88639004171749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.
- Abstract(参考訳): 本報告では,MGM-Omniについて述べる。
音声合成を分離するカスケードパイプラインとは異なり、MGM-Omniは、リアルタイム音声生成からマルチモーダル推論をきれいに分離するデュアルトラックのトークンベースのアーキテクチャを備えた「ブレインマウス」設計を採用する。
この設計により、効率的なクロスモーダル相互作用と低レイテンシなストリーミング音声生成が可能となる。
理解のために、デュアルオーディオエンコーダ設計と一体化されたトレーニング戦略により、様々な音響条件をまたいだ長めの音声知覚が可能となる。
例えば、チャンクベースの並列復号方式は、テキスト音声のトークンレートギャップを狭くし、推論を加速し、長期にわたって安定した音色でストリーミングゼロショット音声クローニングをサポートする。
並行処理と比較して、MGM-Omniはデータ効率のトレーニングでこれらの能力を達成する。
大規模な実験により、MGM-Omniは既存のオープンソースモデルよりも、拡張シーケンス間での音色識別を保ち、自然および文脈対応の音声を生成し、より優れた長文音声および一様理解を実現することが示されている。
MGM-Omniは、一様理解と制御可能な個人化されたロングホライゾン音声生成のための効率的なエンドツーエンドパラダイムを確立する。
関連論文リスト
- AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-01T16:03:57Z) - OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [95.27191872116306]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation [17.56310064245171]
SALMON-Omni(サルモン・オムニ)は、発話中に発声した音声を同時に聴くことができる音声理解・生成モデルである。
SALMON-Omniは、ターンテイキング、バージイン、エコーキャンセルのシナリオの管理に長けており、完全な対話型AIシステムの堅牢なプロトタイプとしての可能性を確立している。
論文 参考訳(メタデータ) (2024-11-27T08:38:57Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。