論文の概要: Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation
- arxiv url: http://arxiv.org/abs/2511.05516v1
- Date: Sun, 26 Oct 2025 17:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.00901
- Title: Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation
- Title(参考訳): Ming-UniAudio:統一表現による共同理解・生成・編集のための音声LLM
- Authors: Canxiang Yan, Chunxiang Jin, Dawei Huang, Haibing Yu, Han Peng, Hui Zhan, Jie Gao, Jing Peng, Jingdong Chen, Jun Zhou, Kaimeng Ren, Ming Yang, Mingxue Yang, Qiang Xu, Qin Zhao, Ruijie Xiong, Shaoxiong Lin, Xuezhi Wang, Yi Yuan, Yifei Wu, Yongjie Lyu, Zhengyu He, Zhihao Qiu, Zhiqiang Fang, Ziyuan Huang,
- Abstract要約: 本稿では,音声理解,生成,編集を統一する新しいフレームワークを提案する。
統合されたモデルの中核は、意味的および音響的特徴を効果的に統合する最初の連続的トークン化ツールであるMingTok-Audioである。
この統合された連続音声トークン化手法に基づいて,生成能力と理解能力のバランスをとる言語モデルMing-UniAudioを開発した。
- 参考スコア(独自算出の注目度): 43.25237304356213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing speech models suffer from competing requirements on token representations by understanding and generation tasks. This discrepancy in representation prevents speech language models from performing instruction-based free-form editing. To solve this challenge, we introduce a novel framework that unifies speech understanding, generation, and editing. The core of our unified model is a unified continuous speech tokenizer MingTok-Audio, the first continuous tokenizer to effectively integrate semantic and acoustic features, which makes it suitable for both understanding and generation tasks. Based on this unified continuous audio tokenizer, we developed the speech language model Ming-UniAudio, which achieved a balance between generation and understanding capabilities. Ming-UniAudio sets new state-of-the-art (SOTA) records on 8 out of 12 metrics on the ContextASR benchmark. Notably, for Chinese voice cloning, it achieves a highly competitive Seed-TTS-WER of 0.95. Leveraging this foundational model, we further trained a dedicated speech editing model Ming-UniAudio-Edit, the first speech language model that enables universal, free-form speech editing guided solely by natural language instructions, handling both semantic and acoustic modifications without timestamp condition. To rigorously assess the editing capability and establish a foundation for future research, we introduce Ming-Freeform-Audio-Edit, the first comprehensive benchmark tailored for instruction-based free-form speech editing, featuring diverse scenarios and evaluation dimensions spanning semantic correctness, acoustic quality, and instruction alignment. We open-sourced the continuous audio tokenizer, the unified foundational model, and the free-form instruction-based editing model to facilitate the development of unified audio understanding, generation, and manipulation.
- Abstract(参考訳): 既存の音声モデルは、理解と生成タスクによるトークン表現の競合する要求に悩まされる。
この表現の不一致は、言語モデルが命令ベースの自由形式の編集を行うのを防ぐ。
この課題を解決するために、音声理解、生成、編集を統一する新しいフレームワークを導入する。
MingTok-Audioは意味的特徴と音響的特徴を効果的に統合し、理解と生成の両方に適している。
この統合された連続音声トークン化手法に基づいて,生成能力と理解能力のバランスをとる言語モデルMing-UniAudioを開発した。
Ming-UniAudioは、ContextASRベンチマークで12のメトリクスのうち8つに、新しい最先端(SOTA)レコードを設定する。
特に中国の音声クローンでは、高い競争力を持つSeed-TTS-WERの0.95を達成している。
この基礎的モデルを活用することで、タイムスタンプのない意味的・音響的な修正を処理し、自然言語命令のみによってガイドされる普遍的で自由な音声編集を可能にする、最初の音声言語モデルであるMing-UniAudio-Editを訓練した。
編集能力の厳密な評価と今後の研究基盤の確立を目的として,命令ベースの自由形式音声編集に適した最初の総合的なベンチマークであるMing-Freeform-Audio-Editを導入し,意味的正当性,音響品質,命令アライメントにまたがる様々なシナリオと評価次元を特徴とする。
我々は,統合音声理解,生成,操作を容易にするために,連続音声トークン,統合基礎モデル,自由形式の命令ベース編集モデルをオープンソース化した。
関連論文リスト
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context [45.56363286769136]
本稿では,音声に基づく質問を理解し,そのコンテキストを同時に聴くように設計された新しいフレームワークであるSollaを紹介する。
Sollaには、音声イベントを効果的に識別し表現するためのオーディオタグモジュールと、音声コンテンツの理解を改善するためのASR支援予測手法が組み込まれている。
本稿では,音声イベント分類,音声キャプション,音声質問応答の3つのタスクを含むSA-Evalというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-03-19T15:34:21Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - Cross-Utterance Conditioned VAE for Speech Generation [27.5887600344053]
本稿では,CUC-VAE S2フレームワークを用いて,韻律の強化と自然な音声生成を実現する。
CUC-VAE TTS for text-to-speech と CUC-VAE SE for speech editor の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T06:48:41Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。