論文の概要: Massive Sound Embedding Benchmark (MSEB)
- arxiv url: http://arxiv.org/abs/2602.07143v1
- Date: Fri, 06 Feb 2026 19:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.467015
- Title: Massive Sound Embedding Benchmark (MSEB)
- Title(参考訳): MSEB(Massive Sound Embedding Benchmark)
- Authors: Georg Heigold, Ehsan Variani, Tom Bagby, Cyril Allauzen, Ji Ma, Shankar Kumar, Michael Riley,
- Abstract要約: マルチモーダルシステムの聴覚成分を評価するためのフレームワークであるMassive Sound Embedding Benchmark (MSEB) を提案する。
MSEBは8つのコアタスクからなる包括的なスイートを提供する。
最初の実験では、実世界のマルチモーダル体験を改善するための重要な機会を浮き彫りにして、明確なパフォーマンスのヘッドルームを確立しました。
- 参考スコア(独自算出の注目度): 12.647736296545224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio is a critical component of multimodal perception, and any truly intelligent system must demonstrate a wide range of auditory capabilities. These capabilities include transcription, classification, retrieval, reasoning, segmentation, clustering, reranking, and reconstruction. Fundamentally, each task involves transforming a raw audio signal into a meaningful 'embedding' - be it a single vector, a sequence of continuous or discrete representations, or another structured form - which then serves as the basis for generating the task's final response. To accelerate progress towards robust machine auditory intelligence, we present the Massive Sound Embedding Benchmark (MSEB): an extensible framework designed to evaluate the auditory components of any multimodal system. In its first release, MSEB offers a comprehensive suite of eight core tasks, with more planned for the future, supported by diverse datasets, including the new, large-scale Simple Voice Questions (SVQ) dataset. Our initial experiments establish clear performance headrooms, highlighting the significant opportunity to improve real-world multimodal experiences where audio is a core signal. We encourage the research community to use MSEB to assess their algorithms and contribute to its growth. The library is publicly hosted at github.
- Abstract(参考訳): 音声はマルチモーダル知覚の重要な要素であり、真にインテリジェントなシステムは幅広い聴覚能力を示す必要がある。
これらの機能には、転写、分類、検索、推論、セグメンテーション、クラスタリング、再ランク付け、再構築が含まれる。
基本的には、各タスクは生の音声信号を意味のある「埋め込み」に変換する - 単一のベクトル、連続的あるいは離散的な表現のシーケンス、あるいは他の構造化形式 - で、タスクの最終応答を生成する基盤となる。
頑健な機械聴覚インテリジェンスに向けた進展を加速するために,マルチモーダルシステムの聴覚成分を評価するための拡張可能なフレームワークであるMassive Sound Embedding Benchmark (MSEB) を提案する。
最初のリリースでは、MSEBは8つのコアタスクの包括的なスイートを提供し、将来的にはもっと計画されている。
最初の実験では、音響が中核的な信号である実世界のマルチモーダル体験を改善する重要な機会を浮き彫りにした。
我々は,MSEBを用いてアルゴリズムを評価し,その成長に貢献することを研究コミュニティに奨励する。
図書館はgithubで公開されている。
関連論文リスト
- Discrete Audio Tokens: More Than a Survey! [137.3721175670642]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - High-resolution embedding extractor for speaker diarisation [15.392429990363492]
本研究では,高分解能埋込抽出器(HEE)と呼ばれる新しい埋込抽出器アーキテクチャを提案する。
HEEは機能マップ抽出器とエンハンサーで構成されており、自己認識機構を備えたエンハンサーが成功の鍵となる。
4つの公開データセットを含む5つの評価セットの実験を通じて、提案したHEEは、各評価セットに対して少なくとも10%の改善を示す。
論文 参考訳(メタデータ) (2022-11-08T07:41:18Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。