Fugu-MT 論文翻訳(概要): Language Dependencies in Adversarial Attacks on Speech Recognition Systems

論文の概要: Language Dependencies in Adversarial Attacks on Speech Recognition Systems

arxiv url: http://arxiv.org/abs/2202.00399v1
Date: Tue, 1 Feb 2022 13:27:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-02 18:01:16.220647
Title: Language Dependencies in Adversarial Attacks on Speech Recognition Systems
Title（参考訳）: 音声認識システムにおける逆攻撃の言語依存性
Authors: Karla Markert and Donika Mirdita and Konstantin B\"ottinger
Abstract要約: 我々は、ドイツ語と英語のASRシステムの攻撃可能性を比較する。一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic speech recognition (ASR) systems are ubiquitously present in our daily devices. They are vulnerable to adversarial attacks, where manipulated input samples fool the ASR system's recognition. While adversarial examples for various English ASR systems have already been analyzed, there exists no inter-language comparative vulnerability analysis. We compare the attackability of a German and an English ASR system, taking Deepspeech as an example. We investigate if one of the language models is more susceptible to manipulations than the other. The results of our experiments suggest statistically significant differences between English and German in terms of computational effort necessary for the successful generation of adversarial examples. This result encourages further research in language-dependent characteristics in the robustness analysis of ASR.
Abstract（参考訳）: 自動音声認識 (asr) システムは, 日常的デバイスにおいてユビキタスに存在している。敵の攻撃に対して脆弱で、操作された入力サンプルはASRシステムの認識を騙す。様々な英語のASRシステムの逆例はすでに分析されているが、言語間比較脆弱性分析は存在しない。我々は、Deepspeechを例として、ドイツ語と英語のASRシステムの攻撃可能性を比較した。一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。実験結果から, 対数実例の生成に要する計算労力の面では, 英語とドイツ語の統計的に有意な差異が示唆された。この結果は、ASRのロバスト性解析における言語依存特性のさらなる研究を促進する。

関連論文リスト

Automatic Speech Recognition for Non-Native English: Accuracy and Disfluency Handling [0.0]
本研究は,L2-ARCTICコーパスからの録音を用いて,英語アクセント音声の最先端5つの音声認識システムについて検討した。読み上げ音声では,Whisper と AssemblyAI がそれぞれ 0.054 と 0.056 のマッチング誤り率 (MER) で最高の精度を達成した。自発音声では,平均MERは0.063。
論文参考訳（メタデータ） (2025-03-10T05:09:44Z)
Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.87470192277124]
本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文参考訳（メタデータ） (2025-03-02T16:38:16Z)
Advocating Character Error Rate for Multilingual ASR Evaluation [1.2597747768235845]
本稿では,単語誤り率(WER)の限界を評価指標として記述し,文字誤り率(CER)を主指標として提唱する。我々は,CERがWERが直面している課題の多くを回避し,書き込みシステム全体の一貫性を示すことを示す。以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。
論文参考訳（メタデータ） (2024-10-09T19:57:07Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese [5.308321515594125]
本研究は,Whisper および MMS システムの総合的な探索を目的としたものである。調査対象は性別,年齢,肌の色,位置情報など多岐にわたる。オーバーサンプリング技術がこのようなステレオタイプバイアスを軽減することを実証的に示す。
論文参考訳（メタデータ） (2024-02-12T09:35:13Z)
Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation [66.33340583035374]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文参考訳（メタデータ） (2023-07-24T04:29:43Z)
Investigating the Sensitivity of Automatic Speech Recognition Systems to Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。 ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文参考訳（メタデータ） (2023-05-12T11:29:13Z)
Robustifying automatic speech recognition by extracting slowly varying features [16.74051650034954]
敵攻撃に対する防御機構を提案する。このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文参考訳（メタデータ） (2021-12-14T13:50:23Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。最近の研究では、音声からSSLも調べた。音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文参考訳（メタデータ） (2021-04-23T08:27:09Z)
Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文参考訳（メタデータ） (2021-03-28T12:52:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。