Fugu-MT 論文翻訳(概要): Drift-Augmented Scoring: Text-Derived Noise Robustness for Zero-Shot Audio-Language Classification

論文の概要: Drift-Augmented Scoring: Text-Derived Noise Robustness for Zero-Shot Audio-Language Classification

arxiv url: http://arxiv.org/abs/2606.04844v1
Date: Wed, 03 Jun 2026 13:12:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 07:07:40.499479
Title: Drift-Augmented Scoring: Text-Derived Noise Robustness for Zero-Shot Audio-Language Classification
Title（参考訳）: ドリフト強化スコーリング:ゼロショット音声言語分類のためのテキスト依存ノイズロバスト性
Authors: Tu Vo, Sheir Zaheer, Chan Y. Park,
Abstract要約: そこで我々は,コサインスコアに付加される小さなクラスごとのボーナスであるDrift Augmented Scoring (DAS)を提案する。 DASは、雑音の多いオーディオ埋め込みが、クラスのノイズ条件付きテキストが予測する方向にドリフトするとき、クラスに報酬を与える。我々は,Acevedo et al.のUrbanSound8KとフルFSD50Keval集合の4つの変種との比較を行った。
参考スコア（独自算出の注目度）: 2.148479952242455
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contrastive audio-language models such as CLAP enable zero-shot audio classification: a sound is labelled by matching its embedding to text prompt embeddings, with no labelled audio. This matching breaks down under acoustic noise, where accuracy and mAP fall by 12-30 percentage points at 0 dB SNR on standard benchmarks. We propose Drift Augmented Scoring (DAS), a small per-class bonus added to the cosine score. The bonus rewards a class when the noisy audio embedding drifts in the direction that the class's noise-conditioned text prompts predict. It is derived from text alone, computed once and cached, and adds a single inner product per class at inference, with no gradients and no test-time batch. On a LAION CLAP backbone, we compare DAS against the four variants of Acevedo et al.'s concurrent method on UrbanSound8K and the full FSD50K eval set, mixing each clip with urban acoustic scene noise across a range of SNRs. DAS improves the metric on every test condition: by +2.60 to +5.75 accuracy points on UrbanSound8K and +1.50 to +1.74 mAP points on FSD50K.
Abstract（参考訳）: CLAPのような対照的なオーディオ言語モデルでは、ゼロショット音声分類が可能であり、埋め込みをテキストプロンプトの埋め込みとマッチングすることでラベル付けされる。このマッチングは、標準ベンチマークで12-30ポイントの精度とmAPが0dB SNRで低下する音響ノイズの下で分解される。そこで我々は,コサインスコアに付加される小さなクラスごとのボーナスであるDrift Augmented Scoring (DAS)を提案する。このボーナスは、雑音の多いオーディオ埋め込みが、クラスのノイズ条件付きテキストが予測する方向にドリフトするとき、クラスに報酬を与える。テキストのみから派生し、一度計算してキャッシュし、推論時にクラス毎にひとつの内部製品を追加し、グラデーションがなく、テストタイムのバッチも不要である。 LAION CLAP のバックボーンでは,Acevedo et al のUrbanSound8K とフル FSD50K eval の4つの変種を比較し,各クリップとSNRの範囲の都市音響シーンノイズを混合する。 DASは、UrbanSound8Kで+2.60から+5.75の精度ポイント、FSD50Kで+1.50から+1.74のmAPポイント、あらゆるテスト条件で測定値を改善する。

関連論文リスト

RobustSpeechFlow: Learning Robust Text-to-Speech Trajectories via Augmentation-based Contrastive Flow Matching [10.755921557009307]
RobustSpeechFlowは、長さ保存リピートにマッチするコントラストフローを拡張し、遅延拡張をスキップすることでアライメントを改善するトレーニング戦略である。ワードエラー率(WER)を0.06Bパラメータで1.44から1.38に削減する。多様な話者および韻律条件に対して、一貫したインテリジェンスの改善を提供する。
論文参考訳（メタデータ） (2026-05-21T07:22:28Z)
VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio [1.0791267046450075]
VocSimは、凍結埋め込みの固有の幾何学的アライメントを探索するトレーニング不要のベンチマークである。 VocSimは、人間のスピーチ、動物の発声、環境音にまたがる19のコーパスから125万のソースクリップを集約する。
論文参考訳（メタデータ） (2025-12-10T22:13:12Z)
DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation [0.3728263002609659]
音声・音声分析におけるTTA (Test-Time Adaptation) 研究は、しばしば定型ないし不一致な雑音条件下でモデルを評価する。本稿では,より現実的で多様な音響シフトの下でTTAアプローチを評価するためのベンチマークであるDHAuDSを提案する。 DHAuDSは、UrbanSound8K-C、SpeechCommandsV2-C、VocalSound-C、ReefSet-Cの4つの標準ベンチマークで構成されている。
論文参考訳（メタデータ） (2025-11-23T12:19:23Z)
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds [45.534228559551316]
CLAPを用いたゼロショット音声分類法を提案する。本稿ではまず,野生の音の理解を改善するために,音声キャプションの書き直しを訓練したCLAPモデルであるReCLAPを提案する。提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
論文参考訳（メタデータ） (2024-09-13T21:58:20Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
Generalized zero-shot audio-to-intent classification [7.76114116227644]
そこで本研究では,意図ごとのサンプルテキストしか持たない,ゼロショット音声からインテントへの一般化型分類フレームワークを提案する。我々はニューラルオーディオシンセサイザーを利用して、サンプルテキスト発声のためのオーディオ埋め込みを作成する。我々のマルチモーダルトレーニングアプローチは、SLURPの見えない意図に対するゼロショット意図分類の精度を2.75%と18.2%向上させる。
論文参考訳（メタデータ） (2023-11-04T18:55:08Z)
Class Prototype-based Cleaner for Label Noise Learning [73.007001454085]
半教師付き学習法は、雑音ラベル学習問題に対する現在のSOTAソリューションである。 textbfClass textbfPrototype-based label textbfCleaner。
論文参考訳（メタデータ） (2022-12-21T04:56:41Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
Using multiple reference audios and style embedding constraints for speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文参考訳（メタデータ） (2021-10-09T04:24:29Z)
Robust Feature Learning on Long-Duration Sounds for Acoustic Scene Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文参考訳（メタデータ） (2021-08-11T03:33:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。