Fugu-MT 論文翻訳(概要): Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music

論文の概要: Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music

arxiv url: http://arxiv.org/abs/2604.10503v1
Date: Sun, 12 Apr 2026 07:41:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.058623
Title: Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music
Title（参考訳）: メルスケール表現における異文化間バイアス:音声と音楽からの証拠と代替
Authors: Shivam Chauhan, Ajay Pundhir,
Abstract要約: 音声フロントエンドにおける異文化間バイアスの包括的評価について述べる。メルスケールの特徴を、音声認識(11言語)、音楽分析(6コレクション)、ヨーロッパの音響シーン分類(10都市)で学習可能な選択肢と比較する。その結果、メルスケールの機能は音節言語では31.2%、非音節言語では18.7%であることがわかった。
参考スコア（独自算出の注目度）: 0.5729426778193398
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern audio systems universally employ mel-scale representations derived from 1940s Western psychoacoustic studies, potentially encoding cultural biases that create systematic performance disparities. We present a comprehensive evaluation of cross-cultural bias in audio front-ends, comparing mel-scale features with learnable alternatives (LEAF, SincNet) and psychoacoustic variants (ERB, Bark, CQT) across speech recognition (11 languages), music analysis (6 collections), and European acoustic scene classification (10 European cities). Our controlled experiments isolate front-end contributions while holding architecture and training protocols minimal and constant. Results demonstrate that mel-scale features yield 31.2% WER for tonal languages compared to 18.7% for non-tonal languages (12.5% gap), and show 15.7% F1 degradation between Western and non-Western music. Alternative representations significantly reduce these disparities: LEAF reduces the speech gap by 34% through adaptive frequency allocation, CQT achieves 52% reduction in music performance gaps, and ERB-scale filtering cuts disparities by 31% with only 1% computational overhead. We also release FairAudioBench, enabling cross-cultural evaluation, and demonstrate that adaptive frequency decomposition offers practical paths toward equitable audio processing. These findings reveal how foundational signal processing choices propagate bias, providing crucial guidance for developing inclusive audio systems.
Abstract（参考訳）: 現代のオーディオシステムは1940年代の西洋の心理音響学から派生したメルスケールの表現を普遍的に採用しており、組織的なパフォーマンス格差を生み出す文化的バイアスを符号化する可能性がある。学習可能な代替品(LEAF, SincNet)と, 音声認識(11言語), 音楽分析(6コレクション), 欧州の音響シーン分類(10都市), 心理音響モデル(ERB, Bark, CQT)を比較し, オーディオフロントエンドにおける異文化間の偏りを総合的に評価した。制御された実験では、アーキテクチャとトレーニングプロトコルを最小限かつ一定に保ちながら、フロントエンドのコントリビューションを分離しています。その結果、メルスケールの特徴は、音節言語では31.2%、非音節言語では18.7%(12.5%)であり、西洋音楽と非西洋音楽では15.7%のF1劣化を示している。 LEAFは適応周波数割り当てによって音声ギャップを34%減らし、CQTは52%減らし、ERBスケールのフィルタリングは1%の計算オーバーヘッドで31%減らした。また、FairAudioBenchをリリースし、異文化間評価を可能にし、適応周波数分解が等価なオーディオ処理への実践的経路を提供することを示した。これらの結果から,信号処理の基礎的選択がバイアスを伝播し,インクルーシブオーディオシステムの開発において重要な指針となることが明らかとなった。

関連論文リスト

Discriminating real and synthetic super-resolved audio samples using embedding-based classifiers [9.870143085379146]
GAN(Generative Adversarial Network)と拡散モデルは最近,オーディオ超解像における最先端の性能を達成した。ここでは、様々な埋め込み空間における実・超解音声の分離性について分析する。
論文参考訳（メタデータ） (2026-01-06T22:10:45Z)
DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos [4.452513686760606]
マルチモーダル大言語モデル(MLLM)の内部連鎖(CoT)を利用したビデオから音声を生成するフレームワークを提案する。対応するマルチモーダル推論データセットを構築し、音声生成における初期推論の学習を容易にする。実験では,提案手法が生成した音声の不一致(発声)の低減に有効であることを示す。
論文参考訳（メタデータ） (2025-03-28T07:56:19Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。 XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文参考訳（メタデータ） (2024-03-21T13:52:17Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文参考訳（メタデータ） (2023-01-04T05:36:56Z)
Contrastive Environmental Sound Representation Learning [6.85316573653194]
我々は,自己監督型コントラスト手法と浅い1次元CNNを利用して,明示的なアノテーションを使わずに独特の音声特徴(音響表現)を抽出する。生音声波形とスペクトログラムの両方を用いて、所定の音声の表現を生成し、提案した学習者が音声入力の種類に依存しないかどうかを評価する。
論文参考訳（メタデータ） (2022-07-18T16:56:30Z)
Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文参考訳（メタデータ） (2022-01-05T18:50:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。