論文の概要: Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models
- arxiv url: http://arxiv.org/abs/2407.06957v1
- Date: Tue, 9 Jul 2024 15:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:37:36.939178
- Title: Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models
- Title(参考訳): 音声統合大言語モデルにおける意味的ジェンダーバイアスの検討
- Authors: Yi-Cheng Lin, Tzu-Quan Lin, Chih-Kai Yang, Ke-Han Lu, Wei-Chih Chen, Chun-Yi Kuan, Hung-yi Lee,
- Abstract要約: SILLMのジェンダーバイアスを4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
- 参考スコア(独自算出の注目度): 38.64792118903994
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech Integrated Large Language Models (SILLMs) combine large language models with speech perception to perform diverse tasks, such as emotion recognition to speaker verification, demonstrating universal audio understanding capability. However, these models may amplify biases present in training data, potentially leading to biased access to information for marginalized groups. This work introduces a curated spoken bias evaluation toolkit and corresponding dataset. We evaluate gender bias in SILLMs across four semantic-related tasks: speech-to-text translation (STT), spoken coreference resolution (SCR), spoken sentence continuation (SSC), and spoken question answering (SQA). Our analysis reveals that bias levels are language-dependent and vary with different evaluation methods. Our findings emphasize the necessity of employing multiple approaches to comprehensively assess biases in SILLMs, providing insights for developing fairer SILLM systems.
- Abstract(参考訳): 音声統合大言語モデル(SILLM)は、大きな言語モデルと音声認識を組み合わせることで、感情認識や話者検証、普遍的な音声理解能力の実証など、様々なタスクを実行する。
しかし、これらのモデルはトレーニングデータに存在するバイアスを増幅し、疎外されたグループの情報へのアクセスにバイアスを与える可能性がある。
本研究は、キュレートされた音声バイアス評価ツールキットと対応するデータセットを導入する。
SILLMのジェンダーバイアスを,STT,SCR,SSC,SQAの4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
本研究は,SILLMの偏見を包括的に評価するために複数のアプローチを採用することの必要性を強調し,より公平なSILLMシステムの開発に向けた洞察を提供する。
関連論文リスト
- Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - Scaling for Fairness? Analyzing Model Size, Data Composition, and Multilinguality in Vision-Language Bias [14.632649933582648]
人気のVLMであるCLIPとそのオープンソース版において,データセット構成,モデルサイズ,多言語学習が性別や人種的偏見に与える影響について検討した。
社会的認知バイアスを評価するために,社会的に帯電した用語を特徴とする顔画像のゼロショット性能を測定した。
論文 参考訳(メタデータ) (2025-01-22T21:08:30Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese [5.308321515594125]
本研究は,Whisper および MMS システムの総合的な探索を目的としたものである。
調査対象は性別,年齢,肌の色,位置情報など多岐にわたる。
オーバーサンプリング技術がこのようなステレオタイプバイアスを軽減することを実証的に示す。
論文 参考訳(メタデータ) (2024-02-12T09:35:13Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。