論文の概要: Protecting Bystander Privacy via Selective Hearing in Audio LLMs
- arxiv url: http://arxiv.org/abs/2512.06380v2
- Date: Sat, 13 Dec 2025 14:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:55.977399
- Title: Protecting Bystander Privacy via Selective Hearing in Audio LLMs
- Title(参考訳): オーディオLLMにおける選択的聴力による傍観者のプライバシー保護
- Authors: Xiao Zhan, Guangzhi Sun, Jose Such, Phil Woodland,
- Abstract要約: 選択的聴覚評価のための最初のベンチマークであるSH-Benchを紹介する。
SH-Benchには3,968種類のマルチスピーカーオーディオミキシングが含まれている。
また、Bystander Privacy Fine-Tuning(BPFT)という、Bystander関連のクエリを拒否するモデルを教える新しいトレーニングパイプラインも紹介する。
- 参考スコア(独自算出の注目度): 14.82452941000742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Large language models (LLMs) are increasingly deployed in the real world, where they inevitably capture speech from unintended nearby bystanders, raising privacy risks that existing benchmarks and defences did not consider. We introduce SH-Bench, the first benchmark designed to evaluate selective hearing: a model's ability to attend to an intended main speaker while refusing to process or reveal information about incidental bystander speech. SH-Bench contains 3,968 multi-speaker audio mixtures, including both real-world and synthetic scenarios, paired with 77k multiple-choice questions that probe models under general and selective operating modes. In addition, we propose Selective Efficacy (SE), a novel metric capturing both multi-speaker comprehension and bystander-privacy protection. Our evaluation of state-of-the-art open-source and proprietary LLMs reveals substantial bystander privacy leakage, with strong audio understanding failing to translate into selective protection of bystander privacy. To mitigate this gap, we also present Bystander Privacy Fine-Tuning (BPFT), a novel training pipeline that teaches models to refuse bystander-related queries without degrading main-speaker comprehension. We show that BPFT yields substantial gains, achieving an absolute 47% higher bystander accuracy under selective mode and an absolute 16% higher SE compared to Gemini 2.5 Pro, which is the best audio LLM without BPFT. Together, SH-Bench and BPFT provide the first systematic framework for measuring and improving bystander privacy in audio LLMs.
- Abstract(参考訳): オーディオ大言語モデル(LLM)は現実の世界にますます展開され、意図しない近隣の傍観者からのスピーチを必然的に捉え、既存のベンチマークや防衛が考慮しなかったプライバシーリスクを高めている。
SH-Benchは、選択的聴覚を評価するために設計された最初のベンチマークであり、モデルが意図したメインスピーカーに出席する能力を持ちながら、偶発的傍観者の発話に関する情報の処理や開示を拒否する能力である。
SH-Benchには3,968のマルチスピーカーオーディオミキシングが含まれており、実世界のシナリオと合成シナリオの両方が含まれており、一般的な操作モードと選択的操作モードの下でモデルを探索する77kのマルチチョイス質問と組み合わせている。
さらに,多話者理解と傍観者プライバシ保護を両立させる新しい尺度である選択効用(SE)を提案する。
最先端のオープンソースおよびプロプライエタリなLCMの評価では,傍観者のプライバシの漏洩が顕著であり,強い音声理解は傍観者のプライバシの選択的保護に寄与しない。
このギャップを緩和するために、我々はBystander Privacy Fine-Tuning(BPFT)という、メインスピーカーの理解を損なうことなく、Bystander関連のクエリを拒否するモデルを教える新しいトレーニングパイプラインも提示する。
BPFT は,選択モード下では絶対 47% の傍観者精度,SE は Gemini 2.5 Pro よりも 16% の精度を達成でき,BPFT を含まない最高のオーディオ LLM である。
SH-BenchとBPFTは、オーディオLLMの傍観者のプライバシーを測定し改善するための最初の体系的なフレームワークを提供する。
関連論文リスト
- On Active Privacy Auditing in Supervised Fine-tuning for White-Box Language Models [7.275432177367344]
パーシングは、言語モデル(LM)の教師付き微調整中にプライバシー漏洩リスクを特定し定量化するように設計されている。
我々は,GPT-2,Llama2などの大規模LMに対するMIA(White-box Membering Inference attack)の有効性を改善した。
本研究の目的は,LMのSFTコミュニティに対して,信頼性と使用可能なプライバシ監査ツールの提供と,微調整プロセス中のプライバシ保護に関する貴重な洞察を提供することである。
論文 参考訳(メタデータ) (2024-11-11T15:46:07Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Crowdotic: A Privacy-Preserving Hospital Waiting Room Crowd Density
Estimation with Non-speech Audio [4.149485024539117]
クラウド分析のための非音声音声に基づくアプローチを提案する。
非音声のみを用いて、顕著な精度でそのような分析を行うことができる。
論文 参考訳(メタデータ) (2023-09-19T03:08:20Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。