Fugu-MT 論文翻訳(概要): A Study on Robustness to Perturbations for Representations of Environmental Sound

論文の概要: A Study on Robustness to Perturbations for Representations of Environmental Sound

arxiv url: http://arxiv.org/abs/2203.10425v1
Date: Sun, 20 Mar 2022 01:04:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-22 15:17:09.168692
Title: A Study on Robustness to Perturbations for Representations of Environmental Sound
Title（参考訳）: 環境音表現における摂動のロバスト性に関する研究
Authors: Sangeeta Srivastava, Ho-Hsiang Wu, Joao Rulff, Magdalena Fuentes, Mark Cartwright, Claudio Silva, Anish Arora, Juan Pablo Bello
Abstract要約: 様々な距離測定結果とダウンストリーム性能を組み合わせることで、音響チャネル効果に対する表現のロバストさをより正確に予測する。モノフォニック(UrbanSound8K)とポリフォニック(SONYC UST)のデータでは、Fr'echet Audio Distance(FAD)とCophenetic correlation Distance(CPCD)の2つの距離の組み合わせを示す。さらに、各距離測定の限界について論じる。
参考スコア（独自算出の注目度）: 16.361059909912758
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many audio applications, such as environmental sound analysis, are increasingly using general-purpose audio representations for transfer learning. The robustness of such representations has been determined by evaluating them across a variety of domains and applications. However, it is unclear how the application-specific evaluation can be utilized to predict the impact of variability in real-world deployments caused by myriad microphones' range and acoustic conditions, commonly known as \textit{channel effects}. In this paper, we integrate the results of various distance metrics with downstream performance to make a more informed prediction of how robust the representations or embeddings are to the audio channel effects. To accomplish this, we use two embeddings, YAMNet and OpenL$^3$, and three distance metrics to quantify the change in the embeddings when injecting perturbations to the audio signal that imitate channel effects. In monophonic (UrbanSound8K) and polyphonic (SONYC UST) data, we show a combination of two distances, Fr\'echet Audio Distance (FAD) and Cophenetic Correlation Distance (CPCD), correlates well with the effects of perturbations. We further discuss the limitations of each distance measure.
Abstract（参考訳）: 環境音響分析などの多くのオーディオアプリケーションは、伝達学習に汎用的な音声表現をますます利用している。このような表現のロバスト性は、様々なドメインやアプリケーションで評価することで決定されている。しかし、マイクロホンの範囲と音響条件(一般に「textit{ channel effect」と呼ばれる)による実世界の展開への影響を予測するために、アプリケーション固有の評価をどのように利用できるかは、不明である。本稿では,様々な距離指標の結果を下流のパフォーマンスと統合し,音声チャネルの効果に対する表現や埋め込みの堅牢性について,よりインフォームドな予測を行う。これを実現するために、YAMNetとOpenL$^3$の2つの埋め込みと、チャネル効果を模倣する音声信号に摂動を注入する際の埋め込みの変化を定量化するために、3つの距離メトリクスを使用する。モノフォニック (urbansound8k) とポリフォニック (sonyc ust) のデータでは、2つの距離、fr\'echet audio distance (fad) と cophenetic correlation distance (cpcd) の組み合わせが摂動の影響とよく相関していることを示す。さらに、各距離測定の限界について論じる。

関連論文リスト

Port-based teleportation under pure-dephasing decoherence [0.0]
資源状態と計測過程の両方に影響を及ぼすノイズの存在下でのポートベーステレポーテーションについて検討する。ノイズ適応測定はノイズレス測定よりも悪い結果が得られた。
論文参考訳（メタデータ） (2026-02-18T15:01:27Z)
SEE: Signal Embedding Energy for Quantifying Noise Interference in Large Audio Language Models [49.313324100819955]
信号埋め込みエネルギー (Signal Embedding Energy, SEE) は、LALM入力に対する雑音強度の影響を定量化する手法である。 SEEはLALM性能と強い相関を示し,0.98。本稿では,LALMにおけるノイズ定量化のための新しい指標を提案し,実環境におけるロバスト性向上のためのガイダンスを提供する。
論文参考訳（メタデータ） (2026-01-12T08:57:55Z)
Ivan-ISTD: Rethinking Cross-domain Heteroscedastic Noise Perturbations in Infrared Small Target Detection [53.689841037081834]
Ivan-ISTD は ISTD におけるクロスドメインシフトと異方性雑音摂動の2つの課題に対処するように設計されている。 Ivan-ISTDはクロスドメインシナリオにおいて優れた堅牢性を示している。
論文参考訳（メタデータ） (2025-10-14T07:48:31Z)
Audio-Based Pedestrian Detection in the Presence of Vehicular Noise [39.631104350049945]
本稿では,車体騒音の存在下でのオーディオに基づく歩行者検出における,新しいデータセット,結果,および最先端技術に関する詳細な分析について述べる。本研究では, (i) 雑音と雑音に制限された環境間のクロスデータセット評価, (ii) ノイズがモデル性能に与える影響の評価, (iii) ドメイン外の音に対するモデルの予測ロバスト性の評価の3つの分析を行った。
論文参考訳（メタデータ） (2025-09-23T17:57:44Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Investigating the Sensitivity of Pre-trained Audio Embeddings to Common Effects [4.202522944371801]
広範に使用されている基礎モデルから抽出したオーディオ埋め込みの音響効果に対する感度について検討する。パラメータ化音響効果を適用し,変形軌跡と埋め込み空間における効果強度の相関関係を解析した。音響効果の強さが増大するにつれて、埋め込みが単調に動く方向が存在するが、変位を含む部分空間は概して高次元である。
論文参考訳（メタデータ） (2025-01-27T09:49:08Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文参考訳（メタデータ） (2023-11-30T22:58:30Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文参考訳（メタデータ） (2023-08-07T05:05:49Z)
Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文参考訳（メタデータ） (2022-11-07T10:37:14Z)
Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文参考訳（メタデータ） (2022-11-02T15:03:50Z)
Blind Room Parameter Estimation Using Multiple-Multichannel Speech Recordings [37.145413836886455]
部屋の幾何学的パラメータや音響的パラメータを知ることは、オーディオ拡張現実、音声のデバーベレーション、音声法医学などの応用に有用である。室内の総表面積,体積,および周波数依存残響時間と平均表面吸収を共同で推定する問題について検討した。単一チャネルとチャネル間キューの両方を活用する新しい畳み込みニューラルネットワークアーキテクチャを提案し、大規模で現実的なシミュレーションデータセットでトレーニングする。
論文参考訳（メタデータ） (2021-07-29T08:51:49Z)
Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文参考訳（メタデータ） (2021-04-01T03:53:57Z)
Investigations on Audiovisual Emotion Recognition in Noisy Conditions [43.40644186593322]
本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
論文参考訳（メタデータ） (2021-03-02T17:45:16Z)
Exploration of Audio Quality Assessment and Anomaly Localisation Using Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文参考訳（メタデータ） (2020-05-16T17:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。