論文の概要: MAEB: Massive Audio Embedding Benchmark
- arxiv url: http://arxiv.org/abs/2602.16008v1
- Date: Tue, 17 Feb 2026 21:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.4363
- Title: MAEB: Massive Audio Embedding Benchmark
- Title(参考訳): MAEB: 大量のオーディオ埋め込みベンチマーク
- Authors: Adnan El Assadi, Isaac Chung, Chenghao Xiao, Roman Solomatin, Animesh Jha, Rahul Chand, Silky Singh, Kaitlyn Wang, Ali Sartaz Khan, Marc Moussa Nasser, Sufen Fong, Pengfei He, Alan Xiao, Ayush Sunil Munot, Aditya Shrivastava, Artem Gazizov, Niklas Muennighoff, Kenneth Enevoldsen,
- Abstract要約: Massive Audio Embedding Benchmarkは100以上の言語で音声、音楽、環境音、モーダルな音声テキスト推論を30のタスクでカバーしている。
50以上のモデルを評価し、すべてのタスクで1つのモデルが支配的でないことを発見した。
クラスタリングは、すべてのモデルにとって依然として困難であり、最高のパフォーマンスのモデルでさえ、控えめな結果しか得られない。
- 参考スコア(独自算出の注目度): 13.002273534113113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Massive Audio Embedding Benchmark (MAEB), a large-scale benchmark covering 30 tasks across speech, music, environmental sounds, and cross-modal audio-text reasoning in 100+ languages. We evaluate 50+ models and find that no single model dominates across all tasks: contrastive audio-text models excel at environmental sound classification (e.g., ESC50) but score near random on multilingual speech tasks (e.g., SIB-FLEURS), while speech-pretrained models show the opposite pattern. Clustering remains challenging for all models, with even the best-performing model achieving only modest results. We observe that models excelling on acoustic understanding often perform poorly on linguistic tasks, and vice versa. We also show that the performance of audio encoders on MAEB correlates highly with their performance when used in audio large language models. MAEB is derived from MAEB+, a collection of 98 tasks. MAEB is designed to maintain task diversity while reducing evaluation cost, and it integrates into the MTEB ecosystem for unified evaluation across text, image, and audio modalities. We release MAEB and all 98 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.
- Abstract(参考訳): 我々は,100以上の言語における音声,音楽,環境音,モーダル音声テキストの相互推論を対象とする大規模ベンチマークであるMassive Audio Embedding Benchmark (MAEB)を紹介した。
コントラッシブ音声テキストモデルは環境音の分類(例えば、ESC50)において優れるが、多言語音声タスク(例えば、SIB-FLEURS)ではランダムに近いスコアを示し、音声予測モデルでは、その逆のパターンを示す。
クラスタリングは、すべてのモデルにとって依然として困難であり、最高のパフォーマンスのモデルでさえ、控えめな結果しか得られない。
音響的理解に優れるモデルはしばしば言語的タスクに不利な結果をもたらすことが観察され、その逆も観察される。
また,MAEBにおける音声エンコーダの性能は,音声大言語モデルにおいて高い相関性を示す。
MAEBは98タスクの集合であるMAEB+に由来する。
MAEBは、評価コストを低減しつつタスクの多様性を維持するように設計されており、テキスト、画像、オーディオモダリティの統一評価のためにMTEBエコシステムに統合されている。
MAEBと98のタスクとコード、https://github.com/embeddings-benchmark/mteb.comでリーダーボードをリリースします。
関連論文リスト
- MiMo-Audio: Audio Language Models are Few-Shot Learners [87.95443029030969]
MiMo-Audio-7B-Baseは、音声変換、スタイル転送、音声編集などのトレーニングデータから欠落するタスクを一般化する。
MiMo-Audio-7B-Baseはまた、非常にリアルなトークショー、リサイクリング、ライブストリーミング、討論を生成できる強力な音声継続機能をデモしている。
論文 参考訳(メタデータ) (2025-12-29T19:06:05Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - CODEOFCONDUCT at Multilingual Counterspeech Generation: A Context-Aware Model for Robust Counterspeech Generation in Low-Resource Languages [1.9263811967110864]
本稿では,MCG-COING-2025共有タスクにおいて大きな成功を収めた,頑健な対音声生成のための文脈認識モデルを提案する。
多言語データセットに微調整されたシミュレーションアニーリングアルゴリズムを活用することで、モデルはヘイトスピーチに対する現実的に正確な応答を生成する。
4つの言語で最先端のパフォーマンスを実証し、バスク語で第1位、イタリア語で第2位、英語とスペイン語で第3位にランク付けしました。
論文 参考訳(メタデータ) (2025-01-01T03:36:31Z) - Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation [25.476596046882854]
音声品質評価には、平均世論スコア(MOS)や話者類似度(SIM)など、複数の側面から音声を評価する必要があるのが一般的である。
本稿では,最近導入された聴覚大言語モデル(LLM)を音声品質自動評価に活用することを提案する。
論文 参考訳(メタデータ) (2024-09-25T05:44:44Z) - Salmon: A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2024-09-11T17:34:52Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文 参考訳(メタデータ) (2021-07-04T08:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。