論文の概要: VoxSafeBench: Not Just What Is Said, but Who, How, and Where
- arxiv url: http://arxiv.org/abs/2604.14548v1
- Date: Thu, 16 Apr 2026 02:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.68479
- Title: VoxSafeBench: Not Just What Is Said, but Who, How, and Where
- Title(参考訳): VoxSafeBench: 言ったことだけでなく、誰が、どのように、どこで、どこに?
- Authors: Yuxiang Wang, Hongyu Liu, Yijiang Xu, Qinke Ni, Li Wang, Wan Lin, Kunyu Feng, Dekun Chen, Xu Tan, Lei Wang, Jie Shi, Zhizheng Wu,
- Abstract要約: 本稿では,音声モデルのソーシャルアライメントを共同評価する最初のベンチマークとして,VoxSafeBenchを紹介する。
Tier 1は一致したテキストと音声入力を用いてコンテンツ中心のリスクを評価する。
タイア2は、書き起こしが良性であるが、適切な応答ヒンジがスピーカーに作用する音声条件付リスクを目標とする。
私たちは、テキスト上で堅牢なセーフガードが、しばしば音声で劣化していることに気付きました。
- 参考スコア(独自算出の注目度): 30.964672315074413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As speech language models (SLMs) transition from personal devices into shared, multi-user environments, their responses must account for far more than the words alone. Who is speaking, how they sound, and where the conversation takes place can each turn an otherwise benign request into one that is unsafe, unfair, or privacy-violating. Existing benchmarks, however, largely focus on basic audio comprehension, study individual risks in isolation, or conflate content that is inherently harmful with content that only becomes problematic due to its acoustic context. We introduce VoxSafeBench, among the first benchmarks to jointly evaluate social alignment in SLMs across three dimensions: safety, fairness, and privacy. VoxSafeBench adopts a Two-Tier design: Tier1 evaluates content-centric risks using matched text and audio inputs, while Tier2 targets audio-conditioned risks in which the transcript is benign but the appropriate response hinges on the speaker, paralinguistic cues, or the surrounding environment. To validate Tier2, we include intermediate perception probes and confirm that frontier SLMs can successfully detect these acoustic cues yet still fail to act on them appropriately. Across 22 tasks with bilingual coverage, we find that safeguards appearing robust on text often degrade in speech: safety awareness drops for speaker- and scene-conditioned risks, fairness erodes when demographic differences are conveyed vocally, and privacy protections falter when contextual cues arrive acoustically. Together, these results expose a pervasive speech grounding gap: current SLMs frequently recognize the relevant social norm in text but fail to apply it when the decisive cue must be grounded in speech. Code and data are publicly available at: https://amphionteam.github.io/VoxSafeBench_demopage/
- Abstract(参考訳): 音声言語モデル(SLM)がパーソナルデバイスから共有されたマルチユーザ環境へと移行するにつれて、その応答は単語単独よりもはるかに多く考慮されなければならない。
誰が話すか、どのように聞こえるか、どこで会話が行われるかは、それぞれが不公平な要求を、安全で不公平でプライバシーを侵害するものに変えることができる。
しかし、既存のベンチマークは、基本的音声理解、孤立における個々のリスクの研究、あるいは音響的文脈によってのみ問題となるコンテンツに対して本質的に有害な内容の断片化に主に焦点をあてている。
我々は、安全、公正、プライバシーの3次元にわたるSLMにおける社会的アライメントを共同評価する最初のベンチマークとして、VoxSafeBenchを紹介した。
Tier1は一致したテキストとオーディオ入力を使用してコンテンツ中心のリスクを評価し、Tier2はテキストが良性だが適切な応答は話者、パラ言語的手がかり、あるいは周囲の環境に依存しているオーディオ条件のリスクをターゲットにしている。
Tier2を検証するために、中間知覚プローブを含め、フロンティアSLMがこれらの音響的手がかりを検出できるが、適切に動作しないことを確認した。
バイリンガルカバレッジを持つ22のタスクにおいて、安全意識は話者やシーン条件のリスクに対して低下し、人口動態の違いが声で伝えられるときの公平さは損なわれ、プライバシー保護は文脈的手がかりが音響的に届くと悪化する。
現在のSLMはテキスト中の関連する社会的規範をしばしば認識するが、決定的なキューを音声で根拠付けなければならない場合には適用しない。
コードとデータは、https://amphionteam.github.io/VoxSafeBench_demopage/で公開されている。
関連論文リスト
- Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。
HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文 参考訳(メタデータ) (2025-11-14T03:00:04Z) - Speech-Audio Compositional Attacks on Multimodal LLMs and Their Mitigation with SALMONN-Guard [37.736305528135944]
SACRED-Benchを導入し、複雑な音声ベースの攻撃下での大規模言語モデル(LLM)の堅牢性を評価する。
安全判断のための音声,音声,テキストを共同で検査する安全LLMであるSALMONN-Guardを提案する。
論文 参考訳(メタデータ) (2025-11-13T11:50:54Z) - VoiceBBQ: Investigating Effect of Content and Acoustics in Social Bias of Spoken Language Model [3.8581904575338886]
VoiceBBQ(VoiceBBQ)は、不明瞭または曖昧な文脈を示すことによって社会的バイアスを測定するデータセットである。
データセットは、すべてのBBQコンテキストを制御された音声条件に変換し、元のテキストベンチマークに匹敵するアクセントの精度、バイアス、一貫性のスコアを可能にする。
論文 参考訳(メタデータ) (2025-09-25T12:54:31Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models [125.44235244336623]
オーディオ大言語モデル(ALLMs)は広く採用されているが、信頼性は未定である。
音色,アクセント,背景雑音などの非意味的音響的手がかりから生じるALMの有意な信頼性リスクを同定した。
本稿では,AudioTrustを提案する。
論文 参考訳(メタデータ) (2025-05-22T04:27:46Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models [50.89022445197919]
我々は、オープンソースのオーディオLMMが有害な音声質問に対して平均69.14%の攻撃成功率を被っていることを示す。
Gemini-1.5-Proの音声固有のジェイルブレイクは、有害なクエリベンチマークで70.67%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-31T12:11:17Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。