論文の概要: A Study on Robustness to Perturbations for Representations of
Environmental Sound
- arxiv url: http://arxiv.org/abs/2203.10425v2
- Date: Wed, 23 Mar 2022 01:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 11:52:40.717680
- Title: A Study on Robustness to Perturbations for Representations of
Environmental Sound
- Title(参考訳): 環境音表現における摂動のロバスト性に関する研究
- Authors: Sangeeta Srivastava, Ho-Hsiang Wu, Joao Rulff, Magdalena Fuentes, Mark
Cartwright, Claudio Silva, Anish Arora, Juan Pablo Bello
- Abstract要約: モノフォニック(UrbanSound8K)およびポリフォニック(SONYC UST)データセット上で,YAMNetとOpenL$3$の2つの埋め込みを評価した。
本研究では,音波信号に摂動を注入することによりチャネル効果を模倣し,新しい埋め込みのシフトを3つの距離で測定する。
- 参考スコア(独自算出の注目度): 16.361059909912758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio applications involving environmental sound analysis increasingly use
general-purpose audio representations, also known as embeddings, for transfer
learning. Recently, Holistic Evaluation of Audio Representations (HEAR)
evaluated twenty-nine embedding models on nineteen diverse tasks. However, the
evaluation's effectiveness depends on the variation already captured within a
given dataset. Therefore, for a given data domain, it is unclear how the
representations would be affected by the variations caused by myriad
microphones' range and acoustic conditions -- commonly known as channel
effects. We aim to extend HEAR to evaluate invariance to channel effects in
this work. To accomplish this, we imitate channel effects by injecting
perturbations to the audio signal and measure the shift in the new (perturbed)
embeddings with three distance measures, making the evaluation domain-dependent
but not task-dependent. Combined with the downstream performance, it helps us
make a more informed prediction of how robust the embeddings are to the channel
effects. We evaluate two embeddings -- YAMNet, and OpenL$^3$ on monophonic
(UrbanSound8K) and polyphonic (SONYC UST) datasets. We show that one distance
measure does not suffice in such task-independent evaluation. Although
Fr\'echet Audio Distance (FAD) correlates with the trend of the performance
drop in the downstream task most accurately, we show that we need to study this
in conjunction with the other distances to get a clear understanding of the
overall effect of the perturbation. In terms of the embedding performance, we
find OpenL$^3$ to be more robust to YAMNet, which aligns with the HEAR
evaluation.
- Abstract(参考訳): 環境音の分析を含むオーディオアプリケーションは、伝達学習に汎用的な音声表現(埋め込みとも呼ばれる)をますます利用している。
近年,HEAR(Holistic Evaluation of Audio Representations)は,19種類のタスクに対する21種類の埋め込みモデルの評価を行っている。
しかしながら、評価の有効性は、所定のデータセット内で既にキャプチャされた変動に依存する。
したがって、与えられたデータ領域において、ミリ波マイクロホンの範囲と音響条件(一般にチャネル効果と呼ばれる)によって引き起こされる変動によって、表現がどのように影響を受けるのかは不明である。
本研究では,HEARを拡張してチャネル効果の不変性を評価することを目的とする。
これを実現するために,音声信号に摂動を注入し,新たな(摂動)埋め込みのシフトを3つの距離尺度で測定することにより,評価領域に依存しながらもタスクに依存しないチャネル効果を模倣する。
下流の性能と組み合わせることで、チャネル効果に対する埋め込みがどれほど堅牢かをより情報的に予測するのに役立つ。
モノフォニック(UrbanSound8K)およびポリフォニック(SONYC UST)データセット上のYAMNetとOpenL$^3$の2つの埋め込みを評価した。
このようなタスク非依存評価において,一つの距離測度が十分でないことを示す。
Fr'echet Audio Distance (FAD) は, 下流タスクの性能低下傾向と相関するが, 摂動の全体的影響を明らかにするためには, 他の距離と組み合わせて検討する必要がある。
埋め込み性能の面では、OpenL$^3$がYAMNetより堅牢であることに気付き、HEARの評価に合致する。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Blind Room Parameter Estimation Using Multiple-Multichannel Speech
Recordings [37.145413836886455]
部屋の幾何学的パラメータや音響的パラメータを知ることは、オーディオ拡張現実、音声のデバーベレーション、音声法医学などの応用に有用である。
室内の総表面積,体積,および周波数依存残響時間と平均表面吸収を共同で推定する問題について検討した。
単一チャネルとチャネル間キューの両方を活用する新しい畳み込みニューラルネットワークアーキテクチャを提案し、大規模で現実的なシミュレーションデータセットでトレーニングする。
論文 参考訳(メタデータ) (2021-07-29T08:51:49Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z) - Investigations on Audiovisual Emotion Recognition in Noisy Conditions [43.40644186593322]
本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。
その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
論文 参考訳(メタデータ) (2021-03-02T17:45:16Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。