論文の概要: Making Acoustic Side-Channel Attacks on Noisy Keyboards Viable with LLM-Assisted Spectrograms' "Typo" Correction
- arxiv url: http://arxiv.org/abs/2504.11622v1
- Date: Tue, 15 Apr 2025 21:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:37:54.105810
- Title: Making Acoustic Side-Channel Attacks on Noisy Keyboards Viable with LLM-Assisted Spectrograms' "Typo" Correction
- Title(参考訳): LLM支援分光器「ティポ」補正によるうるさいキーボードの音響サイドチャネルアタック
- Authors: Seyyed Ali Ayati, Jin Hyun Park, Yichen Cai, Marcus Botacin,
- Abstract要約: マイクロホンのデバイスへの大規模な統合はアコースティックサイドチャネルアタック(ASCA)の機会を増大させる
ASCAの現在の状態-Of-The-Art(SOTA)モデルは、現実的な雑音条件下では限られた堅牢性を示す。
本稿では,視覚変換器(VTs)と大言語モデル(LLMs)をASCAに組み込む一貫したアプローチを提案する。
- 参考スコア(独自算出の注目度): 5.0998111447316194
- License:
- Abstract: The large integration of microphones into devices increases the opportunities for Acoustic Side-Channel Attacks (ASCAs), as these can be used to capture keystrokes' audio signals that might reveal sensitive information. However, the current State-Of-The-Art (SOTA) models for ASCAs, including Convolutional Neural Networks (CNNs) and hybrid models, such as CoAtNet, still exhibit limited robustness under realistic noisy conditions. Solving this problem requires either: (i) an increased model's capacity to infer contextual information from longer sequences, allowing the model to learn that an initially noisily typed word is the same as a futurely collected non-noisy word, or (ii) an approach to fix misidentified information from the contexts, as one does not type random words, but the ones that best fit the conversation context. In this paper, we demonstrate that both strategies are viable and complementary solutions for making ASCAs practical. We observed that no existing solution leverages advanced transformer architectures' power for these tasks and propose that: (i) Visual Transformers (VTs) are the candidate solutions for capturing long-term contextual information and (ii) transformer-powered Large Language Models (LLMs) are the candidate solutions to fix the ``typos'' (mispredictions) the model might make. Thus, we here present the first-of-its-kind approach that integrates VTs and LLMs for ASCAs. We first show that VTs achieve SOTA performance in classifying keystrokes when compared to the previous CNN benchmark. Second, we demonstrate that LLMs can mitigate the impact of real-world noise. Evaluations on the natural sentences revealed that: (i) incorporating LLMs (e.g., GPT-4o) in our ASCA pipeline boosts the performance of error-correction tasks; and (ii) the comparable performance can be attained by a lightweight, fine-tuned smaller LLM (67 times smaller than GPT-4o), using...
- Abstract(参考訳): マイクロフォンのデバイスへの大規模な統合は、機密情報を明らかにするキーストロークの音声信号をキャプチャするために使用できるため、アコースティックサイドチャネルアタック(ASCA)の機会を増大させる。
しかし、畳み込みニューラルネットワーク(CNN)やCoAtNetのようなハイブリッドモデルを含む、ASCAの現在の状態-Of-The-Art(SOTA)モデルは、現実的な雑音条件下では限られた堅牢性を示す。
この問題を解決するにはどちらの方法も必要です。
一 より長い順序から文脈情報を推測する能力の増大により、最初にノイズを伴って入力された単語が将来収集された非ノイズの単語と同じであることを学習することができること。
(i) ランダムな単語をタイプするのではなく、会話の文脈に最も適した単語として、文脈から誤識別された情報を修正するためのアプローチ。
本稿では,ASCAを実用化する上で,両戦略が有効かつ相補的なソリューションであることを実証する。
これらのタスクに先進的なトランスフォーマーアーキテクチャのパワーを利用する既存のソリューションが存在しないことを我々は観察し、次のように提案した。
(i)視覚変換器(VT)は、長期的文脈情報を取得するための候補ソリューションである。
(ii)トランスフォーマー駆動の大規模言語モデル(LLM)は、モデルが行うであろう‘typos’(誤予測)を修正するための候補ソリューションである。
そこで本研究では,VTs と LLMs を統合した ASCAs のファースト・オブ・イズ・シンド・アプローチを提案する。
まず,従来のCNNベンチマークと比較してキーストロークの分類において,VTがSOTA性能を達成することを示す。
第2に,LLMが実環境騒音の影響を軽減することを実証する。
自然文の評価の結果, 以下のことが判明した。
i) LLM(e , GPT-4o)をASCAパイプラインに組み込むことで、エラー訂正タスクのパフォーマンスが向上します。
(ii)軽量で微調整の小さいLDM(GPT-4oの67倍の小さい)で同等の性能が得られる。
関連論文リスト
- Improving Acoustic Side-Channel Attacks on Keyboards Using Transformers and Large Language Models [1.1674893622721483]
本研究では,アコースティックサイドチャネルアタック(ASCA)の有効性と適用性を高めるための深層学習手法について検討する。
我々は、CoAtNetモデルを用いて、先行研究よりも大幅に改善し、最先端の性能を実現した。
重要な進歩は、現実のシナリオに対するノイズ緩和手法の導入である。
論文 参考訳(メタデータ) (2025-02-13T21:33:57Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である
従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。
固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-02T15:01:55Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Meta learning to classify intent and slot labels with noisy few shot
examples [11.835266162072486]
音声言語理解(SLU)モデルは、データハングリーで悪名高い。
SLUは目的分類(IC)とスロットラベリング(SL)の2つのコア問題から構成される。
本稿では,従来の微調整ベースラインとメタラーニング手法であるモデル非依存メタラーニング(MAML)を,ICの精度とSL F1の精度で一貫した性能で向上することを示す。
論文 参考訳(メタデータ) (2020-11-30T18:53:30Z) - Style Attuned Pre-training and Parameter Efficient Fine-tuning for
Spoken Language Understanding [19.105304214638075]
音声言語理解学習のための新しいフレームワークを提案する。
このフレームワークは会話言語モデリング(CLM)事前学習タスクとライトエンコーダアーキテクチャで構成されている。
このフレームワークでは、Alexaの内部データセットと2つのパブリックデータセット上での最先端のSLU結果のパフォーマンスにマッチし、1タスクあたりのパラメータは4.4%に過ぎません。
論文 参考訳(メタデータ) (2020-10-09T03:53:37Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。