論文の概要: Pay Attention to the Robustness of Chinese Minority Language Models! Syllable-level Textual Adversarial Attack on Tibetan Script
- arxiv url: http://arxiv.org/abs/2412.02323v2
- Date: Wed, 04 Dec 2024 09:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 11:47:13.828663
- Title: Pay Attention to the Robustness of Chinese Minority Language Models! Syllable-level Textual Adversarial Attack on Tibetan Script
- Title(参考訳): 中国マイノリティ言語モデルのロバスト性への注意! チベット文字に対するシラブルレベルテキスト対逆攻撃
- Authors: Xi Cao, Dolma Dawa, Nuo Qun, Trashi Nyima,
- Abstract要約: テキストの敵対的攻撃は、中国の少数言語の情報処理における新たな課題である。
我々はTSAttackerと呼ばれるチベット語音節レベルのブラックボックステキスト対逆攻撃を提案する。
実験結果から,TSAttackerは有効であり,高品質な対向サンプルを生成することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The textual adversarial attack refers to an attack method in which the attacker adds imperceptible perturbations to the original texts by elaborate design so that the NLP (natural language processing) model produces false judgments. This method is also used to evaluate the robustness of NLP models. Currently, most of the research in this field focuses on English, and there is also a certain amount of research on Chinese. However, to the best of our knowledge, there is little research targeting Chinese minority languages. Textual adversarial attacks are a new challenge for the information processing of Chinese minority languages. In response to this situation, we propose a Tibetan syllable-level black-box textual adversarial attack called TSAttacker based on syllable cosine distance and scoring mechanism. And then, we conduct TSAttacker on six models generated by fine-tuning two PLMs (pre-trained language models) for three downstream tasks. The experiment results show that TSAttacker is effective and generates high-quality adversarial samples. In addition, the robustness of the involved models still has much room for improvement.
- Abstract(参考訳): テキスト対逆攻撃(英語: textual adversarial attack)とは、NLP(自然言語処理)モデルが誤判定を発生させるように、攻撃者が元のテキストに難解な摂動を精巧な設計で付加する攻撃方法である。
この手法はNLPモデルのロバスト性を評価するためにも用いられる。
現在、この分野の研究の大部分は英語に焦点が当てられており、中国語の研究もある程度行われている。
しかし、私たちの知る限りでは、中国の少数言語を対象とする研究はほとんどない。
テキストの敵対的攻撃は、中国の少数言語の情報処理における新たな課題である。
この状況に応えて,音節のコサイン距離とスコアリング機構に基づいて,チベットの音節レベルのブラックボックステキスト対逆攻撃TSAttackerを提案する。
そして、TSAttackerを2つのPLM(事前学習言語モデル)を微調整して生成された6つのモデル上で3つの下流タスクを実行する。
実験の結果,TSAttackerは有効であり,高品質な対向サンプルを生成することがわかった。
さらに、関連するモデルの堅牢性は、まだ改善の余地がたくさんある。
関連論文リスト
- Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Expanding Scope: Adapting English Adversarial Attacks to Chinese [11.032727439758661]
本稿では,SOTA攻撃アルゴリズムを中国語に適応させる方法について検討する。
実験の結果,これまで英語NLPに適用されていた攻撃手法は,中国語で高品質な敵の例を生成できることがわかった。
さらに, 生成した逆数例が高頻度でセマンティック一貫性が得られることを示す。
論文 参考訳(メタデータ) (2023-06-08T02:07:49Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Towards Evaluating the Robustness of Chinese BERT Classifiers [19.06256105080416]
BERTをベースとした分類器に対して,中国における新たなチャレベル攻撃法を提案する。
実験の結果、中国のニュースデータセットの分類精度は91.8%から0%に低下した。
論文 参考訳(メタデータ) (2020-04-07T23:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。