論文の概要: VoiceBBQ: Investigating Effect of Content and Acoustics in Social Bias of Spoken Language Model
- arxiv url: http://arxiv.org/abs/2509.21108v1
- Date: Thu, 25 Sep 2025 12:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.913127
- Title: VoiceBBQ: Investigating Effect of Content and Acoustics in Social Bias of Spoken Language Model
- Title(参考訳): VoiceBBQ:音声言語モデルの社会的バイアスにおける内容と音響の影響の調査
- Authors: Junhyuk Choi, Ro-hoon Oh, Jihwan Seol, Bugeun Kim,
- Abstract要約: VoiceBBQ(VoiceBBQ)は、不明瞭または曖昧な文脈を示すことによって社会的バイアスを測定するデータセットである。
データセットは、すべてのBBQコンテキストを制御された音声条件に変換し、元のテキストベンチマークに匹敵するアクセントの精度、バイアス、一貫性のスコアを可能にする。
- 参考スコア(独自算出の注目度): 3.8581904575338886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VoiceBBQ, a spoken extension of the BBQ (Bias Benchmark for Question Answering) - a dataset that measures social bias by presenting ambiguous or disambiguated contexts followed by questions that may elicit stereotypical responses. Due to the nature of speech, social bias in Spoken Language Models (SLMs) can emerge from two distinct sources: 1) content aspect and 2) acoustic aspect. The dataset converts every BBQ context into controlled voice conditions, enabling per-axis accuracy, bias, and consistency scores that remain comparable to the original text benchmark. Using VoiceBBQ, we evaluate two SLMs - LLaMA-Omni and Qwen2-Audio - and observe architectural contrasts: LLaMA-Omni resists acoustic bias while amplifying gender and accent bias, whereas Qwen2-Audio substantially dampens these cues while preserving content fidelity. VoiceBBQ thus provides a compact, drop-in testbed for jointly diagnosing content and acoustic bias across spoken language models.
- Abstract(参考訳): 本稿では,BBQ(Bias Benchmark for Question Answering)の音声拡張であるVoiceBBQを紹介する。
音声の性質から、音声言語モデル(SLM)の社会的バイアスは2つの異なる情報源から生じることがある。
1)内容的側面と
2)音響的側面
データセットは、すべてのBBQコンテキストを制御された音声条件に変換し、元のテキストベンチマークに匹敵するアクセントの精度、バイアス、一貫性のスコアを可能にする。
VoiceBBQを用いて、LLaMA-OmniとQwen2-Audioの2つのSLMを評価し、建築コントラストを観察する。
VoiceBBQは、音声言語モデル間でコンテンツと音響バイアスを共同で診断するためのコンパクトでドロップインテストベッドを提供する。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。
私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文 参考訳(メタデータ) (2025-07-25T15:12:06Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue [41.10328851671422]
SpeechLLMは、ガオカオのようなベンチマークで印象的な音声対話質問応答(SQA)性能を示した。
本研究では,音声からの話者認識に制限があり,音声のない会話の書き起こしからLLMに類似した振る舞いを示す。
我々は,SQAにおけるSpeechLLMのより正確な評価フレームワークとして,アイデンティティクリティカルな質問に焦点をあてたタスクを提案する。
論文 参考訳(メタデータ) (2024-09-07T22:54:47Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。