論文の概要: Multi-Granularity Tibetan Textual Adversarial Attack Method Based on Masked Language Model
- arxiv url: http://arxiv.org/abs/2412.02343v1
- Date: Tue, 03 Dec 2024 10:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:34.481468
- Title: Multi-Granularity Tibetan Textual Adversarial Attack Method Based on Masked Language Model
- Title(参考訳): マスケッド言語モデルに基づく多言語チベット文字文逆攻撃法
- Authors: Xi Cao, Nuo Qun, Quzong Gesang, Yulei Zhu, Trashi Nyima,
- Abstract要約: 我々はTSTrickerと呼ばれるマスキング言語モデルに基づく多粒度チベット文字対逆攻撃法を提案する。
結果は、TSTrickerが分類モデルの精度を28.70%以上削減し、分類モデルが90.60%以上のサンプルの予測を変更することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In social media, neural network models have been applied to hate speech detection, sentiment analysis, etc., but neural network models are susceptible to adversarial attacks. For instance, in a text classification task, the attacker elaborately introduces perturbations to the original texts that hardly alter the original semantics in order to trick the model into making different predictions. By studying textual adversarial attack methods, the robustness of language models can be evaluated and then improved. Currently, most of the research in this field focuses on English, and there is also a certain amount of research on Chinese. However, there is little research targeting Chinese minority languages. With the rapid development of artificial intelligence technology and the emergence of Chinese minority language models, textual adversarial attacks become a new challenge for the information processing of Chinese minority languages. In response to this situation, we propose a multi-granularity Tibetan textual adversarial attack method based on masked language models called TSTricker. We utilize the masked language models to generate candidate substitution syllables or words, adopt the scoring mechanism to determine the substitution order, and then conduct the attack method on several fine-tuned victim models. The experimental results show that TSTricker reduces the accuracy of the classification models by more than 28.70% and makes the classification models change the predictions of more than 90.60% of the samples, which has an evidently higher attack effect than the baseline method.
- Abstract(参考訳): ソーシャルメディアでは、ニューラルネットワークモデルがヘイトスピーチの検出や感情分析などに応用されているが、ニューラルネットワークモデルは敵の攻撃に影響を受けやすい。
例えば、テキスト分類タスクでは、攻撃者はモデルを騙して異なる予測を行うために、元のセマンティクスをほとんど変更しないオリジナルのテキストに摂動を精巧に導入する。
テキスト逆攻撃法の研究により、言語モデルの堅牢性を評価し、改善することができる。
現在、この分野の研究の大部分は英語に焦点が当てられており、中国語の研究もある程度行われている。
しかし、中国の少数言語を対象とする研究はほとんどない。
人工知能技術の急速な発展と中国語マイノリティ言語モデルの出現により、中国語マイノリティ言語の情報処理において、テキストによる敵対攻撃が新たな課題となっている。
そこで本稿では,TSTricker と呼ばれるマスキング言語モデルに基づく多粒度チベット文字対逆攻撃手法を提案する。
マスク付き言語モデルを用いて、候補の置換音節や単語を生成し、スコアリング機構を採用して置換順序を決定する。
実験の結果、TSTrickerは分類モデルの精度を28.70%以上削減し、分類モデルは90.60%以上のサンプルの予測を変更させる。
関連論文リスト
- Pay Attention to the Robustness of Chinese Minority Language Models! Syllable-level Textual Adversarial Attack on Tibetan Script [0.0]
テキストの敵対的攻撃は、中国の少数言語の情報処理における新たな課題である。
我々はTSAttackerと呼ばれるチベット語音節レベルのブラックボックステキスト対逆攻撃を提案する。
実験結果から,TSAttackerは有効であり,高品質な対向サンプルを生成することがわかった。
論文 参考訳(メタデータ) (2024-12-03T09:38:22Z) - A Generative Adversarial Attack for Multilingual Text Classifiers [10.993289209465129]
そこで本稿では,多言語パラフレーズモデルに逆方向の目的を付与する手法を提案する。
トレーニングの目的は、テキストの品質と言語の一貫性を保証するために、事前訓練されたモデルのセットを含む。
2つの多言語データセットと5つの言語に対する実験的な検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-01-16T10:14:27Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine
Tuned Multilingual Embeddings [4.3012765978447565]
敵意検出タスクは、英語のようなリソースに富む言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。
ヒンディー語投稿における敵意検出に有効なニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-01-13T11:00:31Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。