論文の概要: Eureka-Audio: Triggering Audio Intelligence in Compact Language Models
- arxiv url: http://arxiv.org/abs/2602.13954v1
- Date: Sun, 15 Feb 2026 02:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.577155
- Title: Eureka-Audio: Triggering Audio Intelligence in Compact Language Models
- Title(参考訳): Eureka-Audio: コンパクト言語モデルでオーディオインテリジェンスをトリガする
- Authors: Dan Zhang, Yishu Lei, Jing Hu, Shuwei He, Songhe Deng, Xianlong Luo, Danxiang Zhu, Shikun Feng, Rui Liu, Jingzhou He, Yu Sun, Hua Wu, Haifeng Wang,
- Abstract要約: Eureka-Audioはコンパクトで高性能なオーディオ言語モデルであり,大規模モデルに対する競合性能を実現する。
Eureka-Audioは1.7Bパラメータしか含まないが、自動音声認識(ASR)、音声理解、高密度音声キャプションに強い性能を示す。
パラ言語推論をさらに強化するために,閉ループ音声命令データ合成と検証パイプラインであるDataFluxを導入する。
- 参考スコア(独自算出の注目度): 28.38037427018435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Eureka-Audio, a compact yet high-performance audio language model that achieves competitive performance against models that are 4 to 18 times larger across a broad range of audio understanding benchmarks. Despite containing only 1.7B parameters, Eureka-Audio demonstrates strong performance on automatic speech recognition (ASR), audio understanding, and dense audio captioning, matching or surpassing multiple 7B to 30B audio and omni-modal baselines. The model adopts a unified end-to-end architecture composed of a lightweight language backbone, a Whisper-based audio encoder, and a sparsely activated Mixture-of-Experts (MoE) adapter that explicitly accounts for audio heterogeneity and alleviates cross-modal optimization conflicts under limited capacity. To further enhance paralinguistic reasoning, we introduce DataFlux, a closed loop audio instruction data synthesis and verification pipeline that constructs high quality, logically consistent supervision from raw audio. Extensive evaluations across ASR, knowledge reasoning, safety, instruction following, and paralinguistic benchmarks, demonstrate that Eureka-Audio achieves an efficient balance between computational cost and performance. These results establish Eureka Audio as a strong and practical baseline for lightweight audio understanding models.
- Abstract(参考訳): Eureka-Audioはコンパクトで高性能なオーディオ言語モデルであり、幅広い音声理解ベンチマークにおいて4倍から18倍の精度のモデルに対して競合性能を実現する。
Eureka-Audioは1.7Bのパラメータしか含まないが、自動音声認識(ASR)、音声理解、高密度な音声キャプション、複数の7Bから30Bオーディオとオムニモーダルベースラインのマッチング、あるいは超越した性能を示す。
このモデルは軽量な言語バックボーンとWhisperベースのオーディオエンコーダと、オーディオの不均一性を明示的に説明し、限られた容量でクロスモーダル最適化競合を緩和するMixture-of-Experts (MoE)アダプタで構成される統一的なエンドツーエンドアーキテクチャを採用する。
パラ言語的推論をさらに強化するため、我々は、高品質で論理的に整合性のある生音声の監視を構築するクローズドループ音声命令データ合成と検証パイプラインであるDataFluxを紹介した。
ASR全体にわたる広範囲な評価、知識推論、安全性、命令追従、パラ言語的ベンチマークは、ユーレカ・アウディオが計算コストと性能の効率的なバランスを達成していることを示している。
これらの結果から,Eureka Audioは軽量音声理解モデルの強靭かつ実践的なベースラインとして確立された。
関連論文リスト
- UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models [36.71750531005594]
UltraEval-Audioは、オーディオ基礎モデルの統一評価フレームワークである。
10の言語と14のコアタスクカテゴリをサポートし、24の主流モデルと36の信頼できるベンチマークをシームレスに統合する。
オーディオコーデックに新しい包括的評価手法を採用し、3つの重要な領域で性能を評価する。
論文 参考訳(メタデータ) (2026-01-04T04:54:12Z) - Step-Audio 2 Technical Report [120.58375054866815]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。
遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文 参考訳(メタデータ) (2025-07-22T14:23:55Z) - Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。
このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。
我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文 参考訳(メタデータ) (2025-06-10T16:37:39Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。