論文の概要: A Study on Robustness to Perturbations for Representations of
Environmental Sound
- arxiv url: http://arxiv.org/abs/2203.10425v1
- Date: Sun, 20 Mar 2022 01:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:17:09.168692
- Title: A Study on Robustness to Perturbations for Representations of
Environmental Sound
- Title(参考訳): 環境音表現における摂動のロバスト性に関する研究
- Authors: Sangeeta Srivastava, Ho-Hsiang Wu, Joao Rulff, Magdalena Fuentes, Mark
Cartwright, Claudio Silva, Anish Arora, Juan Pablo Bello
- Abstract要約: 様々な距離測定結果とダウンストリーム性能を組み合わせることで、音響チャネル効果に対する表現のロバストさをより正確に予測する。
モノフォニック(UrbanSound8K)とポリフォニック(SONYC UST)のデータでは、Fr'echet Audio Distance(FAD)とCophenetic correlation Distance(CPCD)の2つの距離の組み合わせを示す。
さらに、各距離測定の限界について論じる。
- 参考スコア(独自算出の注目度): 16.361059909912758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many audio applications, such as environmental sound analysis, are
increasingly using general-purpose audio representations for transfer learning.
The robustness of such representations has been determined by evaluating them
across a variety of domains and applications. However, it is unclear how the
application-specific evaluation can be utilized to predict the impact of
variability in real-world deployments caused by myriad microphones' range and
acoustic conditions, commonly known as \textit{channel effects}. In this paper,
we integrate the results of various distance metrics with downstream
performance to make a more informed prediction of how robust the
representations or embeddings are to the audio channel effects. To accomplish
this, we use two embeddings, YAMNet and OpenL$^3$, and three distance metrics
to quantify the change in the embeddings when injecting perturbations to the
audio signal that imitate channel effects. In monophonic (UrbanSound8K) and
polyphonic (SONYC UST) data, we show a combination of two distances, Fr\'echet
Audio Distance (FAD) and Cophenetic Correlation Distance (CPCD), correlates
well with the effects of perturbations. We further discuss the limitations of
each distance measure.
- Abstract(参考訳): 環境音響分析などの多くのオーディオアプリケーションは、伝達学習に汎用的な音声表現をますます利用している。
このような表現のロバスト性は、様々なドメインやアプリケーションで評価することで決定されている。
しかし、マイクロホンの範囲と音響条件(一般に「textit{ channel effect」と呼ばれる)による実世界の展開への影響を予測するために、アプリケーション固有の評価をどのように利用できるかは、不明である。
本稿では,様々な距離指標の結果を下流のパフォーマンスと統合し,音声チャネルの効果に対する表現や埋め込みの堅牢性について,よりインフォームドな予測を行う。
これを実現するために、YAMNetとOpenL$^3$の2つの埋め込みと、チャネル効果を模倣する音声信号に摂動を注入する際の埋め込みの変化を定量化するために、3つの距離メトリクスを使用する。
モノフォニック (urbansound8k) とポリフォニック (sonyc ust) のデータでは、2つの距離、fr\'echet audio distance (fad) と cophenetic correlation distance (cpcd) の組み合わせが摂動の影響とよく相関していることを示す。
さらに、各距離測定の限界について論じる。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Blind Room Parameter Estimation Using Multiple-Multichannel Speech
Recordings [37.145413836886455]
部屋の幾何学的パラメータや音響的パラメータを知ることは、オーディオ拡張現実、音声のデバーベレーション、音声法医学などの応用に有用である。
室内の総表面積,体積,および周波数依存残響時間と平均表面吸収を共同で推定する問題について検討した。
単一チャネルとチャネル間キューの両方を活用する新しい畳み込みニューラルネットワークアーキテクチャを提案し、大規模で現実的なシミュレーションデータセットでトレーニングする。
論文 参考訳(メタデータ) (2021-07-29T08:51:49Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z) - Investigations on Audiovisual Emotion Recognition in Noisy Conditions [43.40644186593322]
本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。
その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
論文 参考訳(メタデータ) (2021-03-02T17:45:16Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。