論文の概要: Speak Your Mind: The Speech Continuation Task as a Probe of Voice-Based Model Bias
- arxiv url: http://arxiv.org/abs/2509.22061v1
- Date: Fri, 26 Sep 2025 08:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.309556
- Title: Speak Your Mind: The Speech Continuation Task as a Probe of Voice-Based Model Bias
- Title(参考訳): 音声に基づくモデルバイアスのプローブとしての音声継続タスク
- Authors: Shree Harsha Bokkahalli Satish, Harm Lameris, Olivier Perrotin, Gustav Eje Henter, Éva Székely,
- Abstract要約: 音声継続 (SC) は、意味的文脈と話者識別を保ちながら、音声プロンプトのコヒーレントな拡張を生成するタスクである。
本研究は,性差と発声タイプが継続行動にどのように影響するかを調査し,SCにおけるバイアスの最初の体系的評価を行った。
- 参考スコア(独自算出の注目度): 24.932603485660323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Continuation (SC) is the task of generating a coherent extension of a spoken prompt while preserving both semantic context and speaker identity. Because SC is constrained to a single audio stream, it offers a more direct setting for probing biases in speech foundation models than dialogue does. In this work we present the first systematic evaluation of bias in SC, investigating how gender and phonation type (breathy, creaky, end-creak) affect continuation behaviour. We evaluate three recent models: SpiritLM (base and expressive), VAE-GSLM, and SpeechGPT across speaker similarity, voice quality preservation, and text-based bias metrics. Results show that while both speaker similarity and coherence remain a challenge, textual evaluations reveal significant model and gender interactions: once coherence is sufficiently high (for VAE-GSLM), gender effects emerge on text-metrics such as agency and sentence polarity. In addition, continuations revert toward modal phonation more strongly for female prompts than for male ones, revealing a systematic voice-quality bias. These findings highlight SC as a controlled probe of socially relevant representational biases in speech foundation models, and suggest that it will become an increasingly informative diagnostic as continuation quality improves.
- Abstract(参考訳): 音声継続(英: Speech Continuation, SC)は、意味的文脈と話者識別の両方を保ちながら、音声プロンプトのコヒーレントな拡張を生成するタスクである。
SCは単一のオーディオストリームに制約されているため、対話よりも音声基礎モデルのバイアスを予測するための直接的な設定を提供する。
本研究は,SCにおけるバイアスに関する最初の体系的評価であり,性差と発声タイプ(ブレスィ,クレーキー,エンドクレーク)が継続行動にどのように影響するかを考察する。
我々は、話者の類似性、音声品質の保存、テキストベースのバイアス測定におけるSpiritLM (base and expressive)、VAE-GSLM、SpeechGPTの3つのモデルを評価する。
その結果、話者の類似性とコヒーレンスの両方が課題であるが、テキストによる評価では、コヒーレンスが十分に高い(VAE-GSLMの場合)と、エージェンシーや文の極性といったテキストメトリックに性効果が現れる。
さらに、女性のプロンプトに対する継続は男性よりも強く、体系的な声質バイアスを呈する。
これらの結果から,SCは音声基礎モデルにおける社会的に関連性のある表現バイアスの制御プローブとして注目され,継続品質が向上するにつれて,ますます情報的診断が進むことが示唆された。
関連論文リスト
- Acoustic-based Gender Differentiation in Speech-aware Language Models [3.9845890275228277]
音声認識言語モデル(SpeechLMs)は、音声ベースのコミュニケーションを可能にすることによって、人間とAIの相互作用を根本的に変える。
本稿では,ジェンダー・インディペンデント,ジェンダー・ステレオタイプ,ジェンダー・インディペンデントという3つのカテゴリにまたがる9,208の音声サンプルを含む,この現象の系統的解析を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:15:01Z) - Who Gets the Mic? Investigating Gender Bias in the Speaker Assignment of a Speech-LLM [4.12691471378072]
本研究では,話者配置をバイアス調査の分析ツールとして活用する手法を提案する。
我々は、テキスト・トゥ・スペーチ(TTS)モデルであるBarkを評価し、テキスト・プロンプトのデフォルト話者代入を分析した。
バークの話者選択がジェンダー付き連想と体系的に一致している場合、トレーニングデータやモデルデザインのパターンを明らかにする可能性がある。
論文 参考訳(メタデータ) (2025-08-19T08:10:55Z) - SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis [1.2499537119440245]
話者特性 ディープフェイクデータセットは、男性と女性両方の話者のバランスの取れた表現で237,000以上の発話を含んでいる。
話者特性が検出性能に大きく影響し,性別,言語,年齢,シンセサイザータイプの違いが明らかになった。
これらの知見は、偏見を意識した開発の必要性を強調し、差別的でないディープフェイク検出システムを構築するための基盤を提供する。
論文 参考訳(メタデータ) (2025-08-11T12:58:37Z) - SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models [38.64792118903994]
SILLMのジェンダーバイアスを4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T15:35:43Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。