論文の概要: TSCheater: Generating High-Quality Tibetan Adversarial Texts via Visual Similarity
- arxiv url: http://arxiv.org/abs/2412.02371v1
- Date: Tue, 03 Dec 2024 10:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:35.648993
- Title: TSCheater: Generating High-Quality Tibetan Adversarial Texts via Visual Similarity
- Title(参考訳): TSCheater:視覚的類似性による高品質チベット文字生成
- Authors: Xi Cao, Quzong Gesang, Yuan Sun, Nuo Qun, Tashi Nyima,
- Abstract要約: 本稿では,TSCheater という,チベットの新たなテキスト生成手法を提案する。
チベット語のエンコーディングの特徴と、視覚的に類似した音節が類似した意味を持つ特徴を考える。
実験的に、TSCheaterは攻撃の有効性、摂動、意味的類似性、視覚的類似性、人間の受容において、既存の手法よりも優れている。
- 参考スコア(独自算出の注目度): 3.1854179230109363
- License:
- Abstract: Language models based on deep neural networks are vulnerable to textual adversarial attacks. While rich-resource languages like English are receiving focused attention, Tibetan, a cross-border language, is gradually being studied due to its abundant ancient literature and critical language strategy. Currently, there are several Tibetan adversarial text generation methods, but they do not fully consider the textual features of Tibetan script and overestimate the quality of generated adversarial texts. To address this issue, we propose a novel Tibetan adversarial text generation method called TSCheater, which considers the characteristic of Tibetan encoding and the feature that visually similar syllables have similar semantics. This method can also be transferred to other abugidas, such as Devanagari script. We utilize a self-constructed Tibetan syllable visual similarity database called TSVSDB to generate substitution candidates and adopt a greedy algorithm-based scoring mechanism to determine substitution order. After that, we conduct the method on eight victim language models. Experimentally, TSCheater outperforms existing methods in attack effectiveness, perturbation magnitude, semantic similarity, visual similarity, and human acceptance. Finally, we construct the first Tibetan adversarial robustness evaluation benchmark called AdvTS, which is generated by existing methods and proofread by humans.
- Abstract(参考訳): ディープニューラルネットワークに基づく言語モデルは、テキストの敵対攻撃に対して脆弱である。
英語のような豊かな資源言語が注目されている一方で、チベット語は国境を越えた言語であり、その豊富な古代文学と批判的な言語戦略のために徐々に研究されている。
現在、チベット文字のテキスト生成法はいくつかあるが、チベット文字のテキスト的特徴を完全に考慮せず、生成したテキストの品質を過大評価している。
この問題に対処するために,チベット語エンコーディングの特徴と視覚的に類似した音節が類似した意味を持つ特徴を考察した,TSCheaterという新しいチベット語逆文生成手法を提案する。
この方法は、Devanagariスクリプトなどの他のバグダにも転送できる。
我々は、TSVSDBと呼ばれる自己構築されたチベット語音節の視覚的類似性データベースを用いて、置換候補を生成し、グリーディアルゴリズムに基づくスコアリング機構を用いて置換順序を決定する。
その後、8つの犠牲者言語モデルを用いて手法を実行する。
実験的に、TSCheaterは、攻撃の有効性、摂動の大きさ、意味的類似性、視覚的類似性、人間の受容において、既存の方法よりも優れている。
最後に,従来の手法によって生成され,人間によって実証されるAdvTSと呼ばれる,最初のチベット対逆ロバスト性評価ベンチマークを構築した。
関連論文リスト
- Human-in-the-Loop Generation of Adversarial Texts: A Case Study on Tibetan Script [7.5950217558686255]
対立するテキストは、NLPの複数のサブフィールドにおいて重要な役割を果たす。
本稿では,HTL-GATについて紹介する。
論文 参考訳(メタデータ) (2024-12-17T02:29:54Z) - Multi-Granularity Tibetan Textual Adversarial Attack Method Based on Masked Language Model [0.0]
我々はTSTrickerと呼ばれるマスキング言語モデルに基づく多粒度チベット文字対逆攻撃法を提案する。
結果は、TSTrickerが分類モデルの精度を28.70%以上削減し、分類モデルが90.60%以上のサンプルの予測を変更することを示している。
論文 参考訳(メタデータ) (2024-12-03T10:03:52Z) - Pay Attention to the Robustness of Chinese Minority Language Models! Syllable-level Textual Adversarial Attack on Tibetan Script [0.0]
テキストの敵対的攻撃は、中国の少数言語の情報処理における新たな課題である。
我々はTSAttackerと呼ばれるチベット語音節レベルのブラックボックステキスト対逆攻撃を提案する。
実験結果から,TSAttackerは有効であり,高品質な対向サンプルを生成することがわかった。
論文 参考訳(メタデータ) (2024-12-03T09:38:22Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - A Aelf-supervised Tibetan-chinese Vocabulary Alignment Method Based On
Adversarial Learning [3.553493344868414]
本稿では,2つの単言語コーパスと少数のシード辞書を用いて,シード辞書を用いた半教師付き手法と自己教師型対人訓練法を学習する。
チベット語音節の漢字は、チベット語音節と漢字との弱い意味的相関を反映して、実験結果が良くない。
論文 参考訳(メタデータ) (2021-10-04T08:56:33Z) - Coarse and Fine-Grained Hostility Detection in Hindi Posts using Fine
Tuned Multilingual Embeddings [4.3012765978447565]
敵意検出タスクは、英語のようなリソースに富む言語でよく研究されているが、Hindidueのようなリソースに制約のある言語では探索されていない。
ヒンディー語投稿における敵意検出に有効なニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-01-13T11:00:31Z) - Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。
生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文 参考訳(メタデータ) (2020-12-29T14:28:07Z) - Near-imperceptible Neural Linguistic Steganography via Self-Adjusting
Arithmetic Coding [88.31226340759892]
本稿では,ニューラルネットワークモデルに基づく自己調整型算術符号を用いた秘密メッセージを符号化する新しい言語ステガノグラフィー手法を提案する。
人間の評価によると、生成されたカバーテキストの51%は、実際に盗聴器を騙すことができる。
論文 参考訳(メタデータ) (2020-10-01T20:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。