論文の概要: Evaluating Bias in Spoken Dialogue LLMs for Real-World Decisions and Recommendations
- arxiv url: http://arxiv.org/abs/2510.02352v1
- Date: Sat, 27 Sep 2025 16:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.030273
- Title: Evaluating Bias in Spoken Dialogue LLMs for Real-World Decisions and Recommendations
- Title(参考訳): 実世界決定と勧告のための音声対話LLMのバイアス評価
- Authors: Yihao Wu, Tianrui Wang, Yizhou Peng, Yi-Wen Chao, Xuyi Zhuang, Xinsheng Wang, Shunshun Yin, Ziyang Ma,
- Abstract要約: 年齢、性別、アクセントなどのパラ言語的特徴は、モデル出力に影響を与える可能性がある。
オープンソースモデルは年齢や性別に敏感であり、推奨タスクはグループ間の格差を増幅する傾向がある。
この研究は、エンドツーエンドの音声対話モデルにおけるバイアスに関する最初の体系的な研究を提供する。
- 参考スコア(独自算出の注目度): 18.706521321659995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While biases in large language models (LLMs), such as stereotypes and cultural tendencies in outputs, have been examined and identified, their presence and characteristics in spoken dialogue models (SDMs) with audio input and output remain largely unexplored. Paralinguistic features, such as age, gender, and accent, can affect model outputs; when compounded by multi-turn conversations, these effects may exacerbate biases, with potential implications for fairness in decision-making and recommendation tasks. In this paper, we systematically evaluate biases in speech LLMs and study the impact of multi-turn dialogues with repeated negative feedback. Bias is measured using Group Unfairness Score (GUS) for decisions and similarity-based normalized statistics rate (SNSR) for recommendations, across both open-source models like Qwen2.5-Omni and GLM-4-Voice, as well as closed-source APIs such as GPT-4o Audio and Gemini-2.5-Flash. Our analysis reveals that closed-source models generally exhibit lower bias, while open-source models are more sensitive to age and gender, and recommendation tasks tend to amplify cross-group disparities. We found that biased decisions may persist in multi-turn conversations. This work provides the first systematic study of biases in end-to-end spoken dialogue models, offering insights towards fair and reliable audio-based interactive systems. To facilitate further research, we release the FairDialogue dataset and evaluation code.
- Abstract(参考訳): ステレオタイプや出力の文化的傾向など,大規模言語モデル(LLMs)のバイアスについて検討・同定を行ったが,音声入力と出力を伴う音声対話モデル(SDMs)において,その存在と特徴は明らかにされていない。
年齢、性別、アクセントなどのパラ言語的特徴は、モデル出力に影響しうるが、マルチターンの会話によって複合されると、これらの効果はバイアスを悪化させ、意思決定や推薦タスクにおける公平性に影響を及ぼす可能性がある。
本稿では,音声LLMにおけるバイアスを系統的に評価し,繰り返し負のフィードバックを伴うマルチターン対話の影響について検討する。
Biasは、Qwen2.5-OmniやGLM-4-Voiceといったオープンソースモデルと、GPT-4o AudioやGemini-2.5-FlashといったクローズドソースAPIの両方で、決定と類似性に基づく正規化統計率(SNSR)の判定にGroup Unfairness Score(GUS)を使用して測定される。
我々の分析によると、クローズドソースモデルは一般にバイアスが低く、オープンソースモデルは年齢や性別に敏感であり、レコメンデーションタスクはグループ間の格差を増幅する傾向がある。
偏りのある決定は、複数回にわたる会話で継続する可能性があることがわかった。
この研究は、エンドツーエンドの音声対話モデルにおけるバイアスを初めて体系的に研究し、公正で信頼性の高い音声ベースの対話システムに対する洞察を提供する。
さらなる研究を容易にするため、FairDialogueデータセットと評価コードをリリースする。
関連論文リスト
- BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses [32.58830706120845]
大規模言語モデル(LLM)のバイアス緩和手法に関する既存の研究は、様々なベースラインとメトリクスを用いてバイアス低減性能を評価する。
BiasFreeBenchは8つの主流バイアス緩和手法を包括的に比較した経験的ベンチマークである。
我々は、バイアス軽減研究のための統合テストベッドを確立することを目的として、我々のベンチマークを公開します。
論文 参考訳(メタデータ) (2025-09-30T19:56:54Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - BIPOLAR: Polarization-based granular framework for LLM bias evaluation [0.0]
本研究では,大規模言語モデルにおける偏光関連バイアスを評価するために,再利用性,粒度,トピックに依存しないフレームワークを提案する。
我々のアプローチは、偏極感性感情メトリクスと、競合関連文の合成的に生成されたバランスの取れたデータセットを組み合わせる。
ケーススタディでは、ロシアとウクライナの戦争に焦点を当てた合成データセットを作成し、いくつかのLSMのバイアスを評価した。
論文 参考訳(メタデータ) (2025-08-14T20:44:19Z) - CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文 参考訳(メタデータ) (2025-06-06T13:25:56Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Bias Similarity Measurement: A Black-Box Audit of Fairness Across LLMs [35.72288339965426]
バイアス類似度測定(BSM)は、公平性をモデル間の関係性として扱う。
オープンウェイトモデルは、プロプライエタリなシステムと一致したり、超えたりすることができる。
BSMは、調達、回帰テスト、系統スクリーニングのための監査ワークフローを提供する。
論文 参考訳(メタデータ) (2024-10-15T19:21:14Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models [38.64792118903994]
SILLMのジェンダーバイアスを4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T15:35:43Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。