論文の概要: HEAR 2021: Holistic Evaluation of Audio Representations
- arxiv url: http://arxiv.org/abs/2203.03022v1
- Date: Sun, 6 Mar 2022 18:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 04:54:56.623262
- Title: HEAR 2021: Holistic Evaluation of Audio Representations
- Title(参考訳): HEAR 2021: 音声表現の全体的評価
- Authors: Joseph Turian, Jordie Shier, Humair Raj Khan, Bhiksha Raj, Bj\"orn W.
Schuller, Christian J. Steinmetz, Colin Malloy, George Tzanetakis, Gissel
Velarde, Kirk McNally, Max Henry, Nicolas Pinto, Camille Noufi, Christian
Clough, Dorien Herremans, Eduardo Fonseca, Jesse Engel, Justin Salamon,
Philippe Esling, Pranay Manocha, Shinji Watanabe, Zeyu Jin and Yonatan Bisk
- Abstract要約: HEAR 2021 NeurIPSの課題は、学習の強力な基盤を提供する汎用オーディオ表現を開発することである。
HEAR 2021は、音声、環境音、音楽を含む様々な領域にわたるベンチマークスイートを用いて、音声表現を評価する。
16個のデータセットから抽出した19種類の下流タスクに対して,13の外部チームによる2つのモデルを評価した。
- 参考スコア(独自算出の注目度): 55.324557862041985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What audio embedding approach generalizes best to a wide range of downstream
tasks across a variety of everyday domains without fine-tuning? The aim of the
HEAR 2021 NeurIPS challenge is to develop a general-purpose audio
representation that provides a strong basis for learning in a wide variety of
tasks and scenarios. HEAR 2021 evaluates audio representations using a
benchmark suite across a variety of domains, including speech, environmental
sound, and music. In the spirit of shared exchange, each participant submitted
an audio embedding model following a common API that is general-purpose,
open-source, and freely available to use. Twenty-nine models by thirteen
external teams were evaluated on nineteen diverse downstream tasks derived from
sixteen datasets. Open evaluation code, submitted models and datasets are key
contributions, enabling comprehensive and reproducible evaluation, as well as
previously impossible longitudinal studies. It still remains an open question
whether one single general-purpose audio representation can perform as
holistically as the human ear.
- Abstract(参考訳): どんなオーディオ埋め込みアプローチが、微調整なしで、様々な日常領域にまたがる幅広いダウンストリームタスクに最適なのか?
HEAR 2021 NeurIPSチャレンジの目的は、様々なタスクやシナリオで学習するための強力な基盤を提供する汎用オーディオ表現を開発することである。
HEAR 2021は、音声、環境音、音楽を含む様々な領域にわたるベンチマークスイートを用いて、音声表現を評価する。
共有交換の精神の中で、各参加者は、汎用的でオープンソースで自由に使用できる共通apiに従って、オーディオ埋め込みモデルを提出した。
13の外部チームによる29のモデルを16のデータセットから派生した19のダウンストリームタスクで評価した。
オープン評価コード、提出されたモデル、データセットは重要な貢献であり、これまで不可能だった縦断的研究と同様に、包括的で再現可能な評価を可能にする。
1つの汎用オーディオ表現が人間の耳と同じくらいホモラルに機能するのか、まだ明らかな疑問が残る。
関連論文リスト
- Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - The NeurIPS 2023 Machine Learning for Audio Workshop: Affective Audio Benchmarks and Novel Data [28.23517306589778]
NeurIPS 2023 Machine Learning for Audio Workshopは、さまざまなオーディオドメインから機械学習(ML)の専門家を集めている。
音声感情認識から音声イベント検出まで、音声駆動MLの貴重なタスクはいくつかあるが、他のML領域と比較して、コミュニティは希少である。
高品質なデータ収集は時間がかかり費用がかかるため、学術グループがしばしば最先端の戦略をより大きな、より一般化可能なデータセットに適用することは困難である。
論文 参考訳(メタデータ) (2024-03-21T00:13:59Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification [4.191965713559235]
本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
論文 参考訳(メタデータ) (2021-07-28T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。