論文の概要: On the choice of the optimal temporal support for audio classification
with Pre-trained embeddings
- arxiv url: http://arxiv.org/abs/2312.14005v1
- Date: Thu, 21 Dec 2023 16:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 14:06:46.703493
- Title: On the choice of the optimal temporal support for audio classification
with Pre-trained embeddings
- Title(参考訳): 事前学習型埋め込みによる音声分類のための最適時間サポートの選択について
- Authors: Aurian Quelennec, Michel Olvera, Geoffroy Peeters, Slim Essid
- Abstract要約: 本研究では, 時間的支援(TS)の効果について検討した。
音声スペクトログラム変換システム(PaSSTとBEATs)はTSを小さくしても有効であることを強調した。
特に、BEATとPaSSTを微調整なしで使用することにより、OpenMICの最先端結果を改善する。
- 参考スコア(独自算出の注目度): 11.681721045892663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art audio analysis systems rely on pre-trained embedding
models, often used off-the-shelf as (frozen) feature extractors. Choosing the
best one for a set of tasks is the subject of many recent publications.
However, one aspect often overlooked in these works is the influence of the
duration of audio input considered to extract an embedding, which we refer to
as Temporal Support (TS). In this work, we study the influence of the TS for
well-established or emerging pre-trained embeddings, chosen to represent
different types of architectures and learning paradigms. We conduct this
evaluation using both musical instrument and environmental sound datasets,
namely OpenMIC, TAU Urban Acoustic Scenes 2020 Mobile, and ESC-50. We
especially highlight that Audio Spectrogram Transformer-based systems (PaSST
and BEATs) remain effective with smaller TS, which therefore allows for a
drastic reduction in memory and computational cost. Moreover, we show that by
choosing the optimal TS we reach competitive results across all tasks. In
particular, we improve the state-of-the-art results on OpenMIC, using BEATs and
PaSST without any fine-tuning.
- Abstract(参考訳): 現在の最先端オーディオ分析システムは事前訓練された埋め込みモデルに依存しており、しばしば(凍結した)特徴抽出器として市販されている。
一連のタスクに最適なものを選ぶことは、最近の多くの出版物の主題である。
しかし、これらの作品でしばしば見過ごされる側面は、埋め込みを抽出すると考えられる音声入力の持続時間の影響であり、これは時間的サポート(ts)と呼ばれる。
本研究は,tsが確立された,あるいは新たな事前学習された組込みに与えた影響を,異なる種類のアーキテクチャや学習パラダイムを表現するために選択した。
この評価は,openmic,tau urban acoustic scenes 2020 mobile,esc-50といった楽器と環境音のデータセットを用いて行う。
特に,音声スペクトログラムトランスフォーマシステム(passtとbeats)はtsが小さくなるほど有効であり,メモリや計算コストが大幅に削減される点が注目される。
さらに、最適TSを選択することで、全てのタスクで競合する結果が得られることを示す。
特に、BEATとPaSSTを微調整なしで使用することにより、OpenMICの最先端結果を改善する。
関連論文リスト
- DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Advancing Natural-Language Based Audio Retrieval with PaSST and Large
Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。
我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2023-08-08T13:46:55Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - A General Framework for Learning Procedural Audio Models of
Environmental Sounds [7.478290484139404]
本稿では,手続き型自動エンコーダ(ProVE)フレームワークについて,手続き型オーディオPAモデルを学習するための一般的なアプローチとして紹介する。
本稿では, ProVE モデルが従来の PA モデルと敵対的アプローチの両方を音響忠実度で上回ることを示す。
論文 参考訳(メタデータ) (2023-03-04T12:12:26Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z) - An Empirical Study of Visual Features for DNN based Audio-Visual Speech
Enhancement in Multi-talker Environments [5.28539620288341]
AVSE法は音声と視覚の両方を用いて音声強調を行う。
我々の知る限りでは、この特定のタスクにどの視覚的特徴が最適であるかを調査する論文は発表されていない。
本研究は, 組込み型機能の全体的な性能が向上しているにもかかわらず, 計算集約的な事前処理により, 低資源システムでは利用が困難であることを示す。
論文 参考訳(メタデータ) (2020-11-09T11:48:14Z) - Audio-Visual Decision Fusion for WFST-based and seq2seq Models [3.2771898634434997]
雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる
提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。
提案手法は音響のみのWERよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-01-29T13:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。