論文の概要: PHISH in MESH: Korean Adversarial Phonetic Substitution and Phonetic-Semantic Feature Integration Defense
- arxiv url: http://arxiv.org/abs/2505.21380v1
- Date: Tue, 27 May 2025 16:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.787906
- Title: PHISH in MESH: Korean Adversarial Phonetic Substitution and Phonetic-Semantic Feature Integration Defense
- Title(参考訳): PHISH in MESH: 韓国の対外音声代用と音声・意味的特徴統合防衛
- Authors: Byungjun Kim, Minju Kim, Hyeonchu Park, Bugeun Kim,
- Abstract要約: 韓国語表記体系の音韻的特徴を生かしたHangul (PHISH) の音韻変換法を提案する。
提案手法が摂動データセットと摂動データセットの両方に与える影響を実験的に検証した。
- 参考スコア(独自算出の注目度): 6.412262542272846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As malicious users increasingly employ phonetic substitution to evade hate speech detection, researchers have investigated such strategies. However, two key challenges remain. First, existing studies have overlooked the Korean language, despite its vulnerability to phonetic perturbations due to its phonographic nature. Second, prior work has primarily focused on constructing datasets rather than developing architectural defenses. To address these challenges, we propose (1) PHonetic-Informed Substitution for Hangul (PHISH) that exploits the phonological characteristics of the Korean writing system, and (2) Mixed Encoding of Semantic-pHonetic features (MESH) that enhances the detector's robustness by incorporating phonetic information at the architectural level. Our experimental results demonstrate the effectiveness of our proposed methods on both perturbed and unperturbed datasets, suggesting that they not only improve detection performance but also reflect realistic adversarial behaviors employed by malicious users.
- Abstract(参考訳): 悪意のあるユーザーは、ヘイトスピーチの検出を避けるために音声代行をますます採用しているため、研究者はそのような戦略を調査している。
しかし、2つの重要な課題が残っている。
第一に、既存の研究は、音韻的な摂動に弱いにもかかわらず、韓国語を軽視している。
第2に、以前の作業は、アーキテクチャの防御を開発するのではなく、データセットの構築に重点を置いていた。
これらの課題に対処するため,(1)韓国文字体系の音韻特性を利用したHangul (PHISH) の音素情報交換法,(2)建築レベルでの音素情報の導入による検出器の頑健性を高めるSemantic-pHonetic Feature (MESH) の混合符号化を提案する。
実験の結果,提案手法が摂動データセットと摂動データセットの両方に与える影響を実証し,検出性能の向上だけでなく,悪意のあるユーザによる現実的な敵行動の反映も示唆した。
関連論文リスト
- Exploring Generative Error Correction for Dysarthric Speech Recognition [12.584296717901116]
本稿では,InterSPEECH 2025における音声アクセシビリティ・プロジェクト・チャレンジのための2段階フレームワークを提案する。
モデルスケールとトレーニング戦略の異なる構成を評価し、特定の仮説選択を取り入れて転写精度を向上させる。
変形性音声認識における音響モデルと言語モデリングの相補的役割について考察する。
論文 参考訳(メタデータ) (2025-05-26T16:06:31Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.87470192277124]
本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。
本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。
我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。
この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文 参考訳(メタデータ) (2025-03-02T16:38:16Z) - Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。
本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。
人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-01-07T14:17:47Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - ToxiCloakCN: Evaluating Robustness of Offensive Language Detection in Chinese with Cloaking Perturbations [6.360597788845826]
本研究では,現在最先端の大規模言語モデル (LLM) の体系的摂動データにおける攻撃的内容の同定における限界について検討する。
我々の研究は、検出メカニズムを回避するために使用される進化的戦術に対抗するために、攻撃言語検出におけるより高度な技術が緊急に必要であることを強調している。
論文 参考訳(メタデータ) (2024-06-18T02:44:56Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。