論文の概要: MiMo-Audio: Audio Language Models are Few-Shot Learners
- arxiv url: http://arxiv.org/abs/2512.23808v1
- Date: Mon, 29 Dec 2025 19:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.178815
- Title: MiMo-Audio: Audio Language Models are Few-Shot Learners
- Title(参考訳): MiMo-Audio: オーディオ言語モデルはほとんど学習者ではない
- Authors: Xiaomi LLM-Core Team, :, Dong Zhang, Gang Wang, Jinlong Xue, Kai Fang, Liang Zhao, Rui Ma, Shuhuai Ren, Shuo Liu, Tao Guo, Weiji Zhuang, Xin Zhang, Xingchen Song, Yihan Yan, Yongzhe He, Cici, Bowen Shen, Chengxuan Zhu, Chong Ma, Chun Chen, Heyu Chen, Jiawei Li, Lei Li, Menghang Zhu, Peidian Li, Qiying Wang, Sirui Deng, Weimin Xiong, Wenshan Huang, Wenyu Yang, Yilin Jiang, Yixin Yang, Yuanyuan Tian, Yue Ma, Yue Yu, Zihan Zhang, Zihao Yue, Bangjun Xiao, Bingquan Xia, Bofei Gao, Bowen Ye, Can Cai, Chang Liu, Chenhong He, Chunan Li, Dawei Zhu, Duo Zhang, Fengyuan Shi, Guoan Wang, Hailin Zhang, Hanglong Lv, Hanyu Li, Hao Tian, Heng Qu, Hongshen Xu, Houbin Zhang, Huaqiu Liu, Jiangshan Duo, Jianguang Zuo, Jianyu Wei, Jiebao Xiao, Jinhao Dong, Jun Shi, Junhao Hu, Kainan Bao, Kang Zhou, Linghao Zhang, Meng Chen, Nuo Chen, Peng Zhang, Qianli Chen, Qiantong Wang, Rang Li, Shaohui Liu, Shengfan Wang, Shicheng Li, Shihua Yu, Shijie Cao, Shimao Chen, Shuhao Gu, Weikun Wang, Wenhan Ma, Xiangwei Deng, Xing Yong, Xing Zhang, Xu Wang, Yifan Song, Yihao Zhao, Yingbo Zhao, Yizhao Gao, Yu Cheng, Yu Tu, Yudong Wang, Zhaojun Huang, Zhengju Tang, Zhenru Lin, Zhichao Song, Zhipeng Xu, Zhixian Zheng, Zihan Jiang,
- Abstract要約: MiMo-Audio-7B-Baseは、音声変換、スタイル転送、音声編集などのトレーニングデータから欠落するタスクを一般化する。
MiMo-Audio-7B-Baseはまた、非常にリアルなトークショー、リサイクリング、ライブストリーミング、討論を生成できる強力な音声継続機能をデモしている。
- 参考スコア(独自算出の注目度): 87.95443029030969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing audio language models typically rely on task-specific fine-tuning to accomplish particular audio tasks. In contrast, humans are able to generalize to new audio tasks with only a few examples or simple instructions. GPT-3 has shown that scaling next-token prediction pretraining enables strong generalization capabilities in text, and we believe this paradigm is equally applicable to the audio domain. By scaling MiMo-Audio's pretraining data to over one hundred million of hours, we observe the emergence of few-shot learning capabilities across a diverse set of audio tasks. We develop a systematic evaluation of these capabilities and find that MiMo-Audio-7B-Base achieves SOTA performance on both speech intelligence and audio understanding benchmarks among open-source models. Beyond standard metrics, MiMo-Audio-7B-Base generalizes to tasks absent from its training data, such as voice conversion, style transfer, and speech editing. MiMo-Audio-7B-Base also demonstrates powerful speech continuation capabilities, capable of generating highly realistic talk shows, recitations, livestreaming and debates. At the post-training stage, we curate a diverse instruction-tuning corpus and introduce thinking mechanisms into both audio understanding and generation. MiMo-Audio-7B-Instruct achieves open-source SOTA on audio understanding benchmarks (MMSU, MMAU, MMAR, MMAU-Pro), spoken dialogue benchmarks (Big Bench Audio, MultiChallenge Audio) and instruct-TTS evaluations, approaching or surpassing closed-source models. Model checkpoints and full evaluation suite are available at https://github.com/XiaomiMiMo/MiMo-Audio.
- Abstract(参考訳): 既存のオーディオ言語モデルは通常、特定のオーディオタスクを達成するためにタスク固有の微調整に依存している。
対照的に、人間はいくつかの例や簡単な指示だけで、新しい音声タスクに一般化することができる。
GPT-3は,テキストの事前学習を拡大することで,音声領域にも適用可能であることを実証した。
MiMo-Audioの事前学習データを1億時間以上にスケールアップすることで、さまざまなオーディオタスクにまたがる数ショット学習能力の出現を観察する。
我々はこれらの能力を体系的に評価し、MiMo-Audio-7B-Baseがオープンソースモデル間の音声インテリジェンスと音声理解のベンチマークの両方でSOTA性能を達成することを発見した。
MiMo-Audio-7B-Baseは、標準メトリクス以外にも、音声変換、スタイル転送、音声編集などのトレーニングデータから欠落するタスクを一般化している。
MiMo-Audio-7B-Baseはまた、非常にリアルなトークショー、リサイクリング、ライブストリーミング、討論を生成できる強力な音声継続機能をデモしている。
学習後の段階では、多様な指導指導コーパスをキュレートし、音声理解と生成の両方に思考メカニズムを導入する。
MiMo-Audio-7B-Instructは、音声理解ベンチマーク(MMSU、MMAU、MMAR、MMAU-Pro)、音声対話ベンチマーク(Big Bench Audio、MultiChallenge Audio)、インストラクト-TTS評価でオープンソースSOTAを実現し、クローズドソースモデルに近づいたり、超えたりしている。
モデルチェックポイントと完全な評価スイートはhttps://github.com/XiaomiMiMo/MiMo-Audio.comで公開されている。
関連論文リスト
- Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。
モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文 参考訳(メタデータ) (2025-04-25T15:31:46Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。