論文の概要: When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR
- arxiv url: http://arxiv.org/abs/2605.28211v1
- Date: Wed, 27 May 2026 09:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.931612
- Title: When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR
- Title(参考訳): ドメイン適応型ASRにおけるプライバシーリスク
- Authors: Maike Züfle, Jan Niehues,
- Abstract要約: SpeechLLMは、ドメインのカスタマイズが標準的なプラクティスであるプロフェッショナルな設定にますますデプロイされる。
ドメイン固有の用語を認識するために適応されたモデルは、その文脈から音韻的に類似した単語を転写する。
我々は、迅速なレベルの緩和戦略を評価し、カスタマイズアプローチ間の精度低下トレードオフを分析する。
- 参考スコア(独自算出の注目度): 17.93682540686544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SpeechLLMs are increasingly deployed in professional settings where domain customisation is standard practice: users supply context in prompts with sensitive information, fine-tune on proprietary recordings, or both. We identify and systematically investigate an overlooked privacy risk of such customisation: a model adapted to recognise domain-specific terminology can be nudged into transcribing a phonetically similar word from its context or training data, even when a different word is spoken, thereby leaking private information. To evaluate this risk, we construct a controlled dataset and measure leakage rates across two customisation mechanisms, prompting and fine-tuning. Both mechanisms cause measurable leakage, compounding when combined. We evaluate a prompt-level mitigation strategy and analyse the accuracy-leakage trade-off across customisation approaches, finding that fine-tuning without context prompts offers the best balance. We release our code and dataset publicly.
- Abstract(参考訳): SpeechLLMは、ドメインのカスタマイズが標準的プラクティスであるプロの環境で、機密性の高い情報を持ったプロンプトのコンテキスト提供、プロプライエタリな録音の微調整など、ますます多くデプロイされている。
ドメイン固有の用語を認識するために適応されたモデルは、異なる単語が話されている場合でも、その文脈や訓練データから音声的に類似した単語を翻訳し、プライベート情報を漏洩させることができる。
このリスクを評価するため、制御されたデータセットを構築し、2つのカスタマイズメカニズムをまたいだリーク率を測定し、高速かつ微調整する。
どちらの機構も測定可能な漏れを引き起こし、組み合わせると複合する。
我々は,迅速な緩和戦略を評価し,カスタマイズアプローチ間の精度低下トレードオフを分析し,文脈のない微調整が最善のバランスをもたらすことを発見した。
コードとデータセットを公開しています。
関連論文リスト
- Differentially Private Runtime Monitoring [5.156484100374059]
本稿では,ストリームベースの監視仕様に差分プライバシーを自動的に適用するアプローチを提案する。
公共交通機関の利用状況のモニタリングを事例として,本手法の有効性と効果を実証する。
論文 参考訳(メタデータ) (2026-05-04T09:33:56Z) - Protecting User Prompts Via Character-Level Differential Privacy [2.986027976506785]
ユーザプロンプトを衛生化するための新しい手法を提案する。
我々のメカニズムは、単語中の各文字をランダムかつ独立に摂動させるために、差分プライバシーのランダム化応答機構を使用する。
修復によって、文脈からの手がかりや、これらの単語がしばしば非常に一般的であるという事実によって、不感な単語が摂動した場合でも、再構築することができる。
論文 参考訳(メタデータ) (2026-03-27T03:02:05Z) - ContextLeak: Auditing Leakage in Private In-Context Learning Methods [24.89856411893133]
ICLの最悪の情報漏洩を実証的に測定する最初のフレームワークであるContextLeakを紹介します。
ContextLeakは理論的プライバシー予算と密接に相関し、リークを確実に検出する。
さらに,既存の手法では,機密情報を漏らしたり,性能を著しく低下させたりして,プライバシとユーティリティのトレードオフがひどい場合が多いことが判明した。
論文 参考訳(メタデータ) (2025-12-18T00:53:19Z) - Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。
RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。
本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:50:16Z) - DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [70.77570343385928]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - A Dataset for Semantic Segmentation in the Presence of Unknowns [49.795683850385956]
既存のデータセットは、既知のものや未知のもののみの評価を可能にするが、両方ではない。
乱雑な実環境からの多様な異常な入力を特徴とする,新しい異常セグメンテーションデータセットISSUを提案する。
データセットは、既存の異常セグメンテーションデータセットの2倍大きい。
論文 参考訳(メタデータ) (2025-03-28T10:31:01Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts [11.883785681042593]
DePromptは、プロンプトのための脱感作保護および有効性評価フレームワークである。
我々は、コンテキスト属性を統合し、プライバシタイプを定義し、高精度なPIIエンティティ識別を実現する。
私たちのフレームワークはプロンプトに適応可能で、テキストのユーザビリティに依存したシナリオに拡張できます。
論文 参考訳(メタデータ) (2024-08-16T02:38:25Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。