論文の概要: Exploring Audio Editing Features as User-Centric Privacy Defenses Against Large Language Model(LLM) Based Emotion Inference Attacks
- arxiv url: http://arxiv.org/abs/2501.18727v2
- Date: Mon, 10 Feb 2025 17:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:13.559812
- Title: Exploring Audio Editing Features as User-Centric Privacy Defenses Against Large Language Model(LLM) Based Emotion Inference Attacks
- Title(参考訳): 大規模言語モデル(LLM)に基づく感情推論攻撃に対するユーザ中心のプライバシー保護としての音声編集機能の検討
- Authors: Mohd. Farhan Israk Soumik, W. K. M. Mithsara, Abdur R. Shahid, Ahmed Imteaj,
- Abstract要約: 既存のプライバシ保護手法はユーザビリティとセキュリティを侵害し、現実的なシナリオでの採用を制限する。
本稿では,ユーザビリティを犠牲にすることなく,感情的プライバシを保護するために,親しみやすい音声編集技術,特にピッチとテンポ操作を活用する,ユーザ中心のアプローチを提案する。
3つの異なるデータセットを用いて実験を行い、ピッチとテンポの操作が感情データを効果的に難なくすることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid proliferation of speech-enabled technologies, including virtual assistants, video conferencing platforms, and wearable devices, has raised significant privacy concerns, particularly regarding the inference of sensitive emotional information from audio data. Existing privacy-preserving methods often compromise usability and security, limiting their adoption in practical scenarios. This paper introduces a novel, user-centric approach that leverages familiar audio editing techniques, specifically pitch and tempo manipulation, to protect emotional privacy without sacrificing usability. By analyzing popular audio editing applications on Android and iOS platforms, we identified these features as both widely available and usable. We rigorously evaluated their effectiveness against a threat model, considering adversarial attacks from diverse sources, including Deep Neural Networks (DNNs), Large Language Models (LLMs), and and reversibility testing. Our experiments, conducted on three distinct datasets, demonstrate that pitch and tempo manipulation effectively obfuscates emotional data. Additionally, we explore the design principles for lightweight, on-device implementation to ensure broad applicability across various devices and platforms.
- Abstract(参考訳): バーチャルアシスタント、ビデオ会議プラットフォーム、ウェアラブルデバイスなど、音声対応技術の急速な普及は、特に音声データからのセンシティブな感情情報の推測に関して、重要なプライバシー上の懸念を引き起こしている。
既存のプライバシー保護手法は、しばしばユーザビリティとセキュリティを損なう。
本稿では,ユーザビリティを犠牲にすることなく,感情的プライバシを保護するために,親しみやすい音声編集技術,特にピッチとテンポ操作を活用する,ユーザ中心のアプローチを提案する。
Android と iOS プラットフォームで人気のオーディオ編集アプリケーションを解析することで,これらの機能を広く利用可能かつ使用可能なものとして認識した。
我々は,DNN(Deep Neural Networks),LLM(Large Language Models),可逆性テスト(Reversibility testing)など,さまざまなソースからの敵攻撃を考慮して,脅威モデルに対するそれらの効果を厳格に評価した。
3つの異なるデータセットを用いて実験を行い、ピッチとテンポの操作が感情データを効果的に難なくすることを示した。
さらに、さまざまなデバイスやプラットフォームにまたがる広範な適用性を確保するために、軽量でオンデバイスな実装の設計原則についても検討する。
関連論文リスト
- Activity Recognition on Avatar-Anonymized Datasets with Masked Differential Privacy [64.32494202656801]
プライバシを保存するコンピュータビジョンは、機械学習と人工知能において重要な問題である。
本稿では,ビデオデータセット中の感性のある被験者を文脈内の合成アバターに置き換える匿名化パイプラインを提案する。
また、匿名化されていないがプライバシーに敏感な背景情報を保護するため、MaskDPを提案する。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Privacy-preserving and Privacy-attacking Approaches for Speech and Audio -- A Survey [7.88857172307008]
本稿では,音声・音声のプライバシー保護・プライバシー侵害対策の既存手法について検討する。
攻撃シナリオと防御シナリオをいくつかのカテゴリに分類し,各アプローチの詳細な分析を行う。
我々の調査によると、ニューラルネットワークに基づく音声制御デバイスは、本質的に特定の種類の攻撃の影響を受けやすい。
論文 参考訳(メタデータ) (2023-09-26T17:31:35Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning [7.387631194438338]
DARE-GPは、音声の書き起こし関連部分を保存しながら、ユーザの感情情報を隠蔽する付加的なノイズを生成するソリューションである。
DARE-GPは、既存の作品と異なり、a) 音声の書き起こしを保護しながら、(b) 未確認のブラックボックスのSER分類器に対して、(b) 音の聞こえない発話をリアルタイムに保護し、(c) 声の書き起こしを現実的に音響的に保護する。
論文 参考訳(メタデータ) (2022-11-17T00:25:05Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Paralinguistic Privacy Protection at the Edge [5.349852254138085]
EDGYは高次元音声データを変換・フィルタリングする表現学習フレームワークで,クラウドへのオフロードに先立ってエッジの感度特性を識別・保持する。
その結果, EDGYは数ミリ秒で動作し, ABXスコアは0.2%向上し, 生音声信号から言語表現を学習する際のペナルティは最小限に抑えられた。
論文 参考訳(メタデータ) (2020-11-04T14:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。