Fugu-MT 論文翻訳(概要): MiMo-Audio: Audio Language Models are Few-Shot Learners

論文の概要: MiMo-Audio: Audio Language Models are Few-Shot Learners

arxiv url: http://arxiv.org/abs/2512.23808v1
Date: Mon, 29 Dec 2025 19:06:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-01 23:27:28.178815
Title: MiMo-Audio: Audio Language Models are Few-Shot Learners
Title（参考訳）: MiMo-Audio: オーディオ言語モデルはほとんど学習者ではない
Authors: Xiaomi LLM-Core Team, :, Dong Zhang, Gang Wang, Jinlong Xue, Kai Fang, Liang Zhao, Rui Ma, Shuhuai Ren, Shuo Liu, Tao Guo, Weiji Zhuang, Xin Zhang, Xingchen Song, Yihan Yan, Yongzhe He, Cici, Bowen Shen, Chengxuan Zhu, Chong Ma, Chun Chen, Heyu Chen, Jiawei Li, Lei Li, Menghang Zhu, Peidian Li, Qiying Wang, Sirui Deng, Weimin Xiong, Wenshan Huang, Wenyu Yang, Yilin Jiang, Yixin Yang, Yuanyuan Tian, Yue Ma, Yue Yu, Zihan Zhang, Zihao Yue, Bangjun Xiao, Bingquan Xia, Bofei Gao, Bowen Ye, Can Cai, Chang Liu, Chenhong He, Chunan Li, Dawei Zhu, Duo Zhang, Fengyuan Shi, Guoan Wang, Hailin Zhang, Hanglong Lv, Hanyu Li, Hao Tian, Heng Qu, Hongshen Xu, Houbin Zhang, Huaqiu Liu, Jiangshan Duo, Jianguang Zuo, Jianyu Wei, Jiebao Xiao, Jinhao Dong, Jun Shi, Junhao Hu, Kainan Bao, Kang Zhou, Linghao Zhang, Meng Chen, Nuo Chen, Peng Zhang, Qianli Chen, Qiantong Wang, Rang Li, Shaohui Liu, Shengfan Wang, Shicheng Li, Shihua Yu, Shijie Cao, Shimao Chen, Shuhao Gu, Weikun Wang, Wenhan Ma, Xiangwei Deng, Xing Yong, Xing Zhang, Xu Wang, Yifan Song, Yihao Zhao, Yingbo Zhao, Yizhao Gao, Yu Cheng, Yu Tu, Yudong Wang, Zhaojun Huang, Zhengju Tang, Zhenru Lin, Zhichao Song, Zhipeng Xu, Zhixian Zheng, Zihan Jiang,
Abstract要約: MiMo-Audio-7B-Baseは、音声変換、スタイル転送、音声編集などのトレーニングデータから欠落するタスクを一般化する。 MiMo-Audio-7B-Baseはまた、非常にリアルなトークショー、リサイクリング、ライブストリーミング、討論を生成できる強力な音声継続機能をデモしている。
参考スコア（独自算出の注目度）: 87.95443029030969
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing audio language models typically rely on task-specific fine-tuning to accomplish particular audio tasks. In contrast, humans are able to generalize to new audio tasks with only a few examples or simple instructions. GPT-3 has shown that scaling next-token prediction pretraining enables strong generalization capabilities in text, and we believe this paradigm is equally applicable to the audio domain. By scaling MiMo-Audio's pretraining data to over one hundred million of hours, we observe the emergence of few-shot learning capabilities across a diverse set of audio tasks. We develop a systematic evaluation of these capabilities and find that MiMo-Audio-7B-Base achieves SOTA performance on both speech intelligence and audio understanding benchmarks among open-source models. Beyond standard metrics, MiMo-Audio-7B-Base generalizes to tasks absent from its training data, such as voice conversion, style transfer, and speech editing. MiMo-Audio-7B-Base also demonstrates powerful speech continuation capabilities, capable of generating highly realistic talk shows, recitations, livestreaming and debates. At the post-training stage, we curate a diverse instruction-tuning corpus and introduce thinking mechanisms into both audio understanding and generation. MiMo-Audio-7B-Instruct achieves open-source SOTA on audio understanding benchmarks (MMSU, MMAU, MMAR, MMAU-Pro), spoken dialogue benchmarks (Big Bench Audio, MultiChallenge Audio) and instruct-TTS evaluations, approaching or surpassing closed-source models. Model checkpoints and full evaluation suite are available at https://github.com/XiaomiMiMo/MiMo-Audio.
Abstract（参考訳）: 既存のオーディオ言語モデルは通常、特定のオーディオタスクを達成するためにタスク固有の微調整に依存している。対照的に、人間はいくつかの例や簡単な指示だけで、新しい音声タスクに一般化することができる。 GPT-3は,テキストの事前学習を拡大することで,音声領域にも適用可能であることを実証した。 MiMo-Audioの事前学習データを1億時間以上にスケールアップすることで、さまざまなオーディオタスクにまたがる数ショット学習能力の出現を観察する。我々はこれらの能力を体系的に評価し、MiMo-Audio-7B-Baseがオープンソースモデル間の音声インテリジェンスと音声理解のベンチマークの両方でSOTA性能を達成することを発見した。 MiMo-Audio-7B-Baseは、標準メトリクス以外にも、音声変換、スタイル転送、音声編集などのトレーニングデータから欠落するタスクを一般化している。 MiMo-Audio-7B-Baseはまた、非常にリアルなトークショー、リサイクリング、ライブストリーミング、討論を生成できる強力な音声継続機能をデモしている。学習後の段階では、多様な指導指導コーパスをキュレートし、音声理解と生成の両方に思考メカニズムを導入する。 MiMo-Audio-7B-Instructは、音声理解ベンチマーク(MMSU、MMAU、MMAR、MMAU-Pro)、音声対話ベンチマーク(Big Bench Audio、MultiChallenge Audio)、インストラクト-TTS評価でオープンソースSOTAを実現し、クローズドソースモデルに近づいたり、超えたりしている。モデルチェックポイントと完全な評価スイートはhttps://github.com/XiaomiMiMo/MiMo-Audio.comで公開されている。

論文の概要: MiMo-Audio: Audio Language Models are Few-Shot Learners

関連論文リスト