論文の概要: VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio
- arxiv url: http://arxiv.org/abs/2512.10120v1
- Date: Wed, 10 Dec 2025 22:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.087491
- Title: VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio
- Title(参考訳): VocSim: シングルソースオーディオにおけるゼロショットコンテンツ識別のためのトレーニング不要ベンチマーク
- Authors: Maris Basha, Anja Zai, Sabine Stoll, Richard Hahnloser,
- Abstract要約: VocSimは、凍結埋め込みの固有の幾何学的アライメントを探索するトレーニング不要のベンチマークである。
VocSimは、人間のスピーチ、動物の発声、環境音にまたがる19のコーパスから125万のソースクリップを集約する。
- 参考スコア(独自算出の注目度): 1.0791267046450075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose audio representations aim to map acoustically variable instances of the same event to nearby points, resolving content identity in a zero-shot setting. Unlike supervised classification benchmarks that measure adaptability via parameter updates, we introduce VocSim, a training-free benchmark probing the intrinsic geometric alignment of frozen embeddings. VocSim aggregates 125k single-source clips from 19 corpora spanning human speech, animal vocalizations, and environmental sounds. By restricting to single-source audio, we isolate content representation from the confound of source separation. We evaluate embeddings using Precision@k for local purity and the Global Separation Rate (GSR) for point-wise class separation. To calibrate GSR, we report lift over an empirical permutation baseline. Across diverse foundation models, a simple pipeline, frozen Whisper encoder features, time-frequency pooling, and label-free PCA, yields strong zero-shot performance. However, VocSim also uncovers a consistent generalization gap. On blind, low-resource speech, local retrieval drops sharply. While performance remains statistically distinguishable from chance, the absolute geometric structure collapses, indicating a failure to generalize to unseen phonotactics. As external validation, our top embeddings predict avian perceptual similarity, improve bioacoustic classification, and achieve state-of-the-art results on the HEAR benchmark. We posit that the intrinsic geometric quality measured here proxies utility in unlisted downstream applications. We release data, code, and a public leaderboard to standardize the evaluation of intrinsic audio geometry.
- Abstract(参考訳): 汎用音声表現は、同じ事象の音響的に変化するインスタンスを近くの点にマッピングすることを目的としており、ゼロショット設定で内容の同一性を解消する。
パラメータ更新によって適応性を測定する教師付き分類ベンチマークとは異なり、凍結埋め込みの内在的な幾何学的アライメントを探索するトレーニング不要ベンチマークであるVocSimを導入する。
VocSimは、人間のスピーチ、動物の発声、環境音にまたがる19のコーパスから125万のソースクリップを集約する。
単一音源音声に制限を加えることにより、音源分離の難点からコンテンツ表現を分離する。
局所純度に対するPrecision@kと,ポイントワイドクラス分離のためのGSRを用いた埋め込みの評価を行った。
GSRを校正するために,経験的置換ベースラインを越えるリフトを報告した。
多様な基礎モデル、単純なパイプライン、凍結したウィスパーエンコーダ機能、時間周波数プーリング、ラベルなしPCAなどにより、強力なゼロショット性能が得られる。
しかし、VocSimは一貫した一般化ギャップも明らかにしている。
ブラインドで低リソースの音声では、局所的な検索が急激に低下する。
性能は確率的に確率と区別できるが、絶対的な幾何学構造は崩壊し、目に見えない音韻論に一般化できないことを示す。
外部の検証として,私たちのトップ埋め込みは鳥の知覚的類似性を予測し,生体音響分類を改善し,HEARベンチマークで最先端の結果を得る。
ここで測定される固有幾何学的品質は、リスト化されていない下流のアプリケーションで有効である。
我々は、本質的なオーディオ幾何学の評価を標準化するために、データ、コード、および公開のリーダーボードをリリースする。
関連論文リスト
- MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification [8.07177858013243]
オーディオにおける自己教師型学習は、微調整をデフォルトとする。
本稿では,二項化プローブについて紹介する。二項化プローブは,プロトタイプを学習し,クラスワイズ情報アグリゲーションを行う軽量でシンプルなプーリング手法である。
我々の研究は、オーディオSSLモデルを評価するための競争的かつ効率的なパラダイムとして探索を確立し、コストのかかる微調整への依存に挑戦する。
論文 参考訳(メタデータ) (2025-09-29T15:11:18Z) - PCSR: Pseudo-label Consistency-Guided Sample Refinement for Noisy Correspondence Learning [17.302186298424836]
クロスモーダル検索は、意味的類似性によって異なるモダリティを整列することを目的としている。
既存の手法では、画像とテキストのペアが完全に整列していると仮定し、実データでノイズ対応を見渡すことが多い。
論文 参考訳(メタデータ) (2025-09-19T05:41:17Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Robust Online Classification: From Estimation to Denoising [14.535583931446807]
一般仮説クラスを用いて,特徴のオンライン分類をラベルに分類する。
観測されたノイズラベルとノイズレス特徴を用いて予測を行う。
性能は、真のラベルと比較する場合、ミニマックスリスクによって測定される。
論文 参考訳(メタデータ) (2023-09-04T16:17:39Z) - Class Prototype-based Cleaner for Label Noise Learning [73.007001454085]
半教師付き学習法は、雑音ラベル学習問題に対する現在のSOTAソリューションである。
textbfClass textbfPrototype-based label textbfCleaner。
論文 参考訳(メタデータ) (2022-12-21T04:56:41Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。