Fugu-MT 論文翻訳(概要): Lightweight Protection for Privacy in Offloaded Speech Understanding

論文の概要: Lightweight Protection for Privacy in Offloaded Speech Understanding

arxiv url: http://arxiv.org/abs/2401.11983v1
Date: Mon, 22 Jan 2024 14:36:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 08:27:10.853951
Title: Lightweight Protection for Privacy in Offloaded Speech Understanding
Title（参考訳）: オフロード音声理解におけるプライバシー保護
Authors: Dongqi Cai,
Abstract要約: クラウドベースの音声認識システムはプライバシーのリスクを引き起こす。アンタングルメントベースのエンコーダは、かなりのメモリと計算資源を必要とする。このような機器に最適化された新しいシステム XXX を導入する。
参考スコア（独自算出の注目度）: 1.6317061277457001
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech is a common input method for mobile embedded devices, but cloud-based speech recognition systems pose privacy risks. Disentanglement-based encoders, designed to safeguard user privacy by filtering sensitive information from speech signals, unfortunately require substantial memory and computational resources, which limits their use in less powerful devices. To overcome this, we introduce a novel system, XXX, optimized for such devices. XXX is built on the insight that speech understanding primarily relies on understanding the entire utterance's long-term dependencies, while privacy concerns are often linked to short-term details. Therefore, XXX focuses on selectively masking these short-term elements, preserving the quality of long-term speech understanding. The core of XXX is an innovative differential mask generator, grounded in interpretable learning, which fine-tunes the masking process. We tested XXX on the STM32H7 microcontroller, assessing its performance in various potential attack scenarios. The results show that XXX maintains speech understanding accuracy and privacy at levels comparable to existing encoders, but with a significant improvement in efficiency, achieving up to 53.3$\times$ faster processing and a 134.1$\times$ smaller memory footprint.
Abstract（参考訳）: 音声は組み込み機器の一般的な入力方式であるが、クラウドベースの音声認識システムはプライバシー上のリスクをもたらす。ディアンタングメントベースのエンコーダは、音声信号から機密情報をフィルタリングすることでユーザのプライバシを保護するように設計されている。そこで我々は,このようなデバイスに最適化された新しいシステム XXX を提案する。 XXXは、音声理解は主に発話の長期的な依存関係全体を理解することに依存しているという洞察に基づいて構築されている。そのため、XXXはこれらの短期的要素を選択的にマスキングすることに集中し、長期的な音声理解の質を維持する。 XXXのコアは、解釈可能な学習に基礎を置き、マスク処理を微調整する革新的な微分マスク生成器である。我々は、STM32H7マイクロコントローラ上でXXXを試験し、その性能を様々な攻撃シナリオで評価した。その結果、XXXは既存のエンコーダに匹敵するレベルの音声認識精度とプライバシーを維持しているが、効率を大幅に改善し、53.3$\times$高速処理と134.1$\times$より小さなメモリフットプリントを実現している。

関連論文リスト

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models [25.266028200777317]
音声言語モデル(SLM)は、ユーザが適切に情報の流れを管理するために区別されることが期待される。現在のSLMベンチマークでは、対話能力をテストするが、話者識別は見落としている。我々は、SLMにおけるインタラクションプライバシを評価するために設計された最初のベンチマークであるVoxPrivacyを紹介する。
論文参考訳（メタデータ） (2026-01-27T06:22:14Z)
Privacy Beyond Pixels: Latent Anonymization for Privacy-Preserving Video Understanding [56.369026347458835]
本稿では,ビデオ基盤モデルにおける視覚的プライバシ保護の新たな定式化について紹介する。入力ピクセルレベルの匿名化に関する現在のプライバシー保護手法では、ユーティリティビデオモデル全体を再トレーニングする必要がある。軽量な Anonym Adapter Module (AAM) は、一般的なタスクユーティリティを維持しながら、ビデオ機能からプライベート情報を除去する。
論文参考訳（メタデータ） (2025-11-11T18:56:27Z)
Backdoor Attacks Against Speech Language Models [63.07317091368079]
本研究は,音声認識モデルに対する音声バックドア攻撃に関する最初の体系的研究である。 4つの音声エンコーダと3つのデータセットにまたがってその効果を実証し、4つのタスクをカバーした。汚染された事前訓練エンコーダの脅威を軽減できる微調整型防御法を提案する。
論文参考訳（メタデータ） (2025-10-01T17:45:04Z)
Exploring Audio Editing Features as User-Centric Privacy Defenses Against Large Language Model(LLM) Based Emotion Inference Attacks [0.0]
既存のプライバシ保護手法はユーザビリティとセキュリティを侵害し、現実的なシナリオでの採用を制限する。本稿では,ユーザビリティを犠牲にすることなく,感情的プライバシを保護するために,親しみやすい音声編集技術,特にピッチとテンポ操作を活用する,ユーザ中心のアプローチを提案する。 3つの異なるデータセットを用いて実験を行い、ピッチとテンポの操作が感情データを効果的に難なくすることを示した。
論文参考訳（メタデータ） (2025-01-30T20:07:44Z)
Privacy-Preserving Edge Speech Understanding with Tiny Foundation Models [0.9699101045941684]
資源制約のあるデバイスにおける音声のプライバシー向上という新しい利用法を提案する。エッジ/クラウドプライバシ保護型音声推論エンジンであるXYZを紹介する。私たちのソリューションは、プライバシーを許さずに、堅牢な音声認識につながる。
論文参考訳（メタデータ） (2025-01-29T18:55:42Z)
Extending Video Masked Autoencoders to 128 frames [75.01251612160829]
ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-11-20T20:00:38Z)
SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。このようにして、セマンティックな内容が検出器に露出されることはない。
論文参考訳（メタデータ） (2024-09-14T02:45:09Z)
End-to-end streaming model for low-latency speech anonymization [11.098498920630782]
本稿では低レイテンシで話者匿名化を実現するストリーミングモデルを提案する。システムは軽量コンテンツエンコーダを用いてエンドツーエンドのオートエンコーダ方式で訓練される。本稿では,2つのシステムの実装による評価結果について述べる。
論文参考訳（メタデータ） (2024-06-13T16:15:53Z)
Anonymizing Speech: Evaluating and Designing Speaker Anonymization Techniques [1.2691047660244337]
音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。本論文は、音声の匿名化と匿名化の程度を評価するためのソリューションを提案する。
論文参考訳（メタデータ） (2023-08-05T16:14:17Z)
SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-03T22:35:27Z)
SPAct: Self-supervised Privacy Preservation for Action Recognition [73.79886509500409]
アクション認識におけるプライバシー漏洩を緩和するための既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を解き放ちつつある。本稿では、プライバシーラベルを必要とせず、自己管理的な方法で、入力ビデオからプライバシー情報を除去する新しいトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T02:56:40Z)
Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文参考訳（メタデータ） (2021-04-22T13:31:41Z)
Speaker De-identification System using Autoencoders and Adversarial Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文参考訳（メタデータ） (2020-11-09T19:22:05Z)
Paralinguistic Privacy Protection at the Edge [5.349852254138085]
EDGYは高次元音声データを変換・フィルタリングする表現学習フレームワークで,クラウドへのオフロードに先立ってエッジの感度特性を識別・保持する。その結果, EDGYは数ミリ秒で動作し, ABXスコアは0.2%向上し, 生音声信号から言語表現を学習する際のペナルティは最小限に抑えられた。
論文参考訳（メタデータ） (2020-11-04T14:11:35Z)
TinySpeech: Attention Condensers for Deep Speech Recognition Neural Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文参考訳（メタデータ） (2020-08-10T16:34:52Z)
InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。我々はこの問題を新しい画像難読化フレームワークで解決する。提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文参考訳（メタデータ） (2020-05-20T19:48:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。