論文の概要: MAEB: Massive Audio Embedding Benchmark
- arxiv url: http://arxiv.org/abs/2602.16008v1
- Date: Tue, 17 Feb 2026 21:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.4363
- Title: MAEB: Massive Audio Embedding Benchmark
- Title(参考訳): MAEB: 大量のオーディオ埋め込みベンチマーク
- Authors: Adnan El Assadi, Isaac Chung, Chenghao Xiao, Roman Solomatin, Animesh Jha, Rahul Chand, Silky Singh, Kaitlyn Wang, Ali Sartaz Khan, Marc Moussa Nasser, Sufen Fong, Pengfei He, Alan Xiao, Ayush Sunil Munot, Aditya Shrivastava, Artem Gazizov, Niklas Muennighoff, Kenneth Enevoldsen,
- Abstract要約: Massive Audio Embedding Benchmarkは100以上の言語で音声、音楽、環境音、モーダルな音声テキスト推論を30のタスクでカバーしている。
50以上のモデルを評価し、すべてのタスクで1つのモデルが支配的でないことを発見した。
クラスタリングは、すべてのモデルにとって依然として困難であり、最高のパフォーマンスのモデルでさえ、控えめな結果しか得られない。
- 参考スコア(独自算出の注目度): 13.002273534113113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Massive Audio Embedding Benchmark (MAEB), a large-scale benchmark covering 30 tasks across speech, music, environmental sounds, and cross-modal audio-text reasoning in 100+ languages. We evaluate 50+ models and find that no single model dominates across all tasks: contrastive audio-text models excel at environmental sound classification (e.g., ESC50) but score near random on multilingual speech tasks (e.g., SIB-FLEURS), while speech-pretrained models show the opposite pattern. Clustering remains challenging for all models, with even the best-performing model achieving only modest results. We observe that models excelling on acoustic understanding often perform poorly on linguistic tasks, and vice versa. We also show that the performance of audio encoders on MAEB correlates highly with their performance when used in audio large language models. MAEB is derived from MAEB+, a collection of 98 tasks. MAEB is designed to maintain task diversity while reducing evaluation cost, and it integrates into the MTEB ecosystem for unified evaluation across text, image, and audio modalities. We release MAEB and all 98 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.
- Abstract(参考訳): 我々は,100以上の言語における音声,音楽,環境音,モーダル音声テキストの相互推論を対象とする大規模ベンチマークであるMassive Audio Embedding Benchmark (MAEB)を紹介した。
コントラッシブ音声テキストモデルは環境音の分類(例えば、ESC50)において優れるが、多言語音声タスク(例えば、SIB-FLEURS)ではランダムに近いスコアを示し、音声予測モデルでは、その逆のパターンを示す。
クラスタリングは、すべてのモデルにとって依然として困難であり、最高のパフォーマンスのモデルでさえ、控えめな結果しか得られない。
音響的理解に優れるモデルはしばしば言語的タスクに不利な結果をもたらすことが観察され、その逆も観察される。
また,MAEBにおける音声エンコーダの性能は,音声大言語モデルにおいて高い相関性を示す。
MAEBは98タスクの集合であるMAEB+に由来する。
MAEBは、評価コストを低減しつつタスクの多様性を維持するように設計されており、テキスト、画像、オーディオモダリティの統一評価のためにMTEBエコシステムに統合されている。
MAEBと98のタスクとコード、https://github.com/embeddings-benchmark/mteb.comでリーダーボードをリリースします。
関連論文リスト
- MiMo-Audio: Audio Language Models are Few-Shot Learners [87.95443029030969]
MiMo-Audio-7B-Baseは、音声変換、スタイル転送、音声編集などのトレーニングデータから欠落するタスクを一般化する。
MiMo-Audio-7B-Baseはまた、非常にリアルなトークショー、リサイクリング、ライブストリーミング、討論を生成できる強力な音声継続機能をデモしている。
論文 参考訳(メタデータ) (2025-12-29T19:06:05Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Salmon: A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2024-09-11T17:34:52Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。