論文の概要: Do Bias Benchmarks Generalise? Evidence from Voice-based Evaluation of Gender Bias in SpeechLLMs
- arxiv url: http://arxiv.org/abs/2510.01254v1
- Date: Wed, 24 Sep 2025 16:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.75968
- Title: Do Bias Benchmarks Generalise? Evidence from Voice-based Evaluation of Gender Bias in SpeechLLMs
- Title(参考訳): バイアスベンチマークは一般化されるか? : 音声LLMにおけるジェンダーバイアスの評価からの検討
- Authors: Shree Harsha Bokkahalli Satish, Gustav Eje Henter, Éva Székely,
- Abstract要約: 特定のMCQA動作を誘導するために,LoRAアダプタを用いて3つのSpeechLLMを微調整する。
我々は、これらの振る舞いが別のMCQAベンチマークに一般化するかどうかを評価し、より重要なのは、長文で創造的なタスクである。
- 参考スコア(独自算出の注目度): 22.24010339935349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in benchmarking bias and fairness in speech large language models (SpeechLLMs) has relied heavily on multiple-choice question answering (MCQA) formats. The model is tasked to choose between stereotypical, anti-stereotypical, or neutral/irrelevant answers given an input speech prompt and an optional text prompt. Such MCQA benchmarks implicitly assume that model performance is consistent across other MCQA tasks, voices, and other task formats such as more realistic, long-form evaluations. In this paper, we probe that assumption. We fine-tune three SpeechLLMs using LoRA adapters to induce specific MCQA behaviours: preference for stereotypical, anti-stereotypical, or neutral/uncertain answers. We then evaluate whether these behaviours generalise to another, distinct MCQA benchmark, and more critically to long-form, creative generation tasks. Our results show that performance on MCQA bias benchmarks fails to reliably predict performances across other MCQA benchmarks, and more importantly across long-form tasks. We conclude that current MCQA bias benchmarks show limited evidence of cross-task generalisation in the speech domain, and also propose an evaluation suite for measuring behaviour transferability in future models and benchmarks.
- Abstract(参考訳): 音声大言語モデル(SpeechLLMs)のバイアスと公平性をベンチマークする最近の研究は、MCQAフォーマットに大きく依存している。
このモデルは、入力された音声プロンプトとオプションのテキストプロンプトが与えられたステレオタイプ、アンチステレオタイプ、または中立/無関係な答えのどちらかを選択するよう指示される。
このようなMCQAベンチマークは、モデル性能が他のMCQAタスク、音声、およびより現実的で長期的な評価のような他のタスクフォーマット間で一貫していることを暗黙的に仮定している。
本稿では,その仮定を考察する。
LoRAアダプタを用いて3つのSpeechLLMを微調整し、MCQAの動作を誘発する。
次に、これらの振る舞いが別のMCQAベンチマークに一般化するかどうかを評価し、より重要なのは、長文でクリエイティブな生成タスクである。
以上の結果から,MCQA バイアスベンチマークの性能は,他のMCQA ベンチマークにおける性能を確実に予測できないことが示唆された。
現在のMCQAバイアスベンチマークでは、音声領域におけるクロスタスク一般化の証拠が限られており、将来のモデルやベンチマークにおける振る舞い伝達性を評価するための評価スイートも提案されている。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.252597615544317]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。
現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。
本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文 参考訳(メタデータ) (2024-10-18T07:52:22Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。