論文の概要: Step-Audio-EditX Technical Report
- arxiv url: http://arxiv.org/abs/2511.03601v1
- Date: Wed, 05 Nov 2025 16:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.483405
- Title: Step-Audio-EditX Technical Report
- Title(参考訳): Step-Audio-EditXテクニカルレポート
- Authors: Chao Yan, Boyong Wu, Peng Yang, Pengfei Tan, Guoqiang Hu, Yuxin Zhang, Xiangyu, Zhang, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu,
- Abstract要約: 提案するStep-Audio-EditXは,表現的かつ反復的な音声編集に優れる,初めてのオープンソースのLCMベースオーディオモデルである。
私たちの中心となるイノベーションは、組み込みベースのプリエントや補助モジュールの必要性を回避するために、大規模な合成データのみを活用することです。
Step-Audio-EditX は感情編集やその他の細かい制御タスクにおいて MiniMax-2.6-hd と Doubao-Seed-TTS-2.0 を上回っている。
- 参考スコア(独自算出の注目度): 61.039849674472585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Step-Audio-EditX, the first open-source LLM-based audio model excelling at expressive and iterative audio editing encompassing emotion, speaking style, and paralinguistics alongside robust zero-shot text-to-speech (TTS) capabilities.Our core innovation lies in leveraging only large-margin synthetic data, which circumvents the need for embedding-based priors or auxiliary modules. This large-margin learning approach enables both iterative control and high expressivity across voices, and represents a fundamental pivot from the conventional focus on representation-level disentanglement. Evaluation results demonstrate that Step-Audio-EditX surpasses both MiniMax-2.6-hd and Doubao-Seed-TTS-2.0 in emotion editing and other fine-grained control tasks.
- Abstract(参考訳): 我々は、感情、話し方、パラ言語を包含する表現的かつ反復的なオーディオ編集に優れた、最初のオープンソースのLCMベースのオーディオモデルであるStep-Audio-EditXを、堅牢なゼロショット音声合成(TTS)機能とともに提案する。
この大きなマージン学習アプローチは、反復的な制御と声間の高い表現性の両方を可能にし、従来の表現レベルの非絡み合いに焦点をあてることから根本的な転換点を示す。
Step-Audio-EditX は感情編集やその他の細かい制御タスクにおいて MiniMax-2.6-hd と Doubao-Seed-TTS-2.0 を上回っている。
関連論文リスト
- DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations [62.00227663434538]
DRVOICE-7BはOpenAudioBenchとBig Bench Audioベンチマーク上で新しい最先端(SOTA)を確立する。
本稿では,共同自己回帰モデルに基づくパラレル音声音声対話モデルであるDrVoiceを提案する。
論文 参考訳(メタデータ) (2025-06-11T02:57:22Z) - Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。
このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。
我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文 参考訳(メタデータ) (2025-06-10T16:37:39Z) - Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction [110.38946048535033]
本稿では,音声認識のための最初のプロダクション対応オープンソースソリューションであるStep-Audioを紹介する。
1) 統合された理解と生成を実現する統合音声テキストマルチモーダルモデル、2) 安価な音声クローニングフレームワークを確立し、蒸留によりオープンソースで軽量なStep-Audio-TTS-3Bモデルを生産する生成音声データエンジン、3) 方言、感情、歌、RAP間の動的調整を可能にする命令駆動型微制御システム、4) ツールコールとロールプレイング機能を備えた強化認知アーキテクチャ。
論文 参考訳(メタデータ) (2025-02-17T15:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。