論文の概要: Bias in the Ear of the Listener: Assessing Sensitivity in Audio Language Models Across Linguistic, Demographic, and Positional Variations
- arxiv url: http://arxiv.org/abs/2602.01030v1
- Date: Sun, 01 Feb 2026 05:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.540894
- Title: Bias in the Ear of the Listener: Assessing Sensitivity in Audio Language Models Across Linguistic, Demographic, and Positional Variations
- Title(参考訳): 聴取者の耳のバイアス:言語的, デモグラフィ的, 位置的変化における感性の評価
- Authors: Sheng-Lun Wei, Yu-Ling Liao, Yen-Hua Chang, Hen-Hsen Huang, Hsin-Hsi Chen,
- Abstract要約: 我々は,Global MMLU Liteに基づく音声強調ベンチマークであるBiasInEarデータセットを構築し,リリースする。
言語的(言語とアクセント)、人口統計学的(ジェンダー)、構造的(選択順序)摂動の9つの代表モデルを評価する。
以上の結果から,MLLMは人口統計学的要因に対して比較的頑健であるが,言語や選択肢の順序に非常に敏感であることが明らかとなり,既存の構造バイアスを増幅する可能性が示唆された。
- 参考スコア(独自算出の注目度): 21.050704978484784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents the first systematic investigation of speech bias in multilingual MLLMs. We construct and release the BiasInEar dataset, a speech-augmented benchmark based on Global MMLU Lite, spanning English, Chinese, and Korean, balanced by gender and accent, and totaling 70.8 hours ($\approx$4,249 minutes) of speech with 11,200 questions. Using four complementary metrics (accuracy, entropy, APES, and Fleiss' $κ$), we evaluate nine representative models under linguistic (language and accent), demographic (gender), and structural (option order) perturbations. Our findings reveal that MLLMs are relatively robust to demographic factors but highly sensitive to language and option order, suggesting that speech can amplify existing structural biases. Moreover, architectural design and reasoning strategy substantially affect robustness across languages. Overall, this study establishes a unified framework for assessing fairness and robustness in speech-integrated LLMs, bridging the gap between text- and speech-based evaluation. The resources can be found at https://github.com/ntunlplab/BiasInEar.
- Abstract(参考訳): 本研究は,多言語MLLMにおける音声バイアスに関する最初の体系的研究である。
我々は、Global MMLU Liteに基づく音声拡張ベンチマークであるBiasInEarデータセットの構築とリリースを行い、英語、中国語、韓国語にまたがり、性別とアクセントのバランスをとり、合計70.8時間(約4,249分)のスピーチと11,200の質問を行った。
4つの相補的指標(精度、エントロピー、APES、Fleissのκ$)を用いて、言語的(言語とアクセント)、人口統計学的(ジェンダー)、構造的(選択順序)摂動の9つの代表モデルを評価する。
以上の結果から,MLLMは人口統計学的要因に対して比較的頑健であるが,言語や選択肢の順序に非常に敏感であることが明らかとなり,既存の構造バイアスを増幅する可能性が示唆された。
さらに、アーキテクチャ設計と推論戦略は言語間の堅牢性に大きな影響を与えます。
本研究は,テキストと音声による評価のギャップを埋めて,音声統合LLMの公平性と堅牢性を評価する統一的な枠組みを確立する。
リソースはhttps://github.com/ntunlplab/BiasInEar.orgにある。
関連論文リスト
- Does Language Model Understand Language? [1.0450509067356148]
自然言語の生成と理解の進歩にもかかわらず、LMは依然として粒度の細かい言語現象に苦慮している。
本研究では,英語とベンガル語の両方の難解な文脈において,SOTA言語モデルの評価を行う。
その結果,最もバランスの取れたモデルとして,多種多様な言語条件における高い相関と低いMAEを一貫して達成していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-15T21:09:09Z) - Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation [9.286959744769792]
目的語品質モデルの言語間一般化は大きな課題である。
主に英語データに基づいて訓練されたモデルは、異なる音素、音節、韻律の特徴を持つ言語に一般化するのに苦労する可能性がある。
本研究では,NISQA,CNNベースモデル,変換器ベースオーディオスペクトログラム変換器(AST)モデルという2つの音声品質モデルの言語間性能について検討した。
論文 参考訳(メタデータ) (2025-02-18T16:22:43Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models [38.64792118903994]
SILLMのジェンダーバイアスを4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T15:35:43Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。