論文の概要: Human-in-the-Loop Generation of Adversarial Texts: A Case Study on Tibetan Script
- arxiv url: http://arxiv.org/abs/2412.12478v1
- Date: Tue, 17 Dec 2024 02:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:53.976380
- Title: Human-in-the-Loop Generation of Adversarial Texts: A Case Study on Tibetan Script
- Title(参考訳): 対人文の対人生成:チベット文字を事例として
- Authors: Xi Cao, Yuan Sun, Jiajun Li, Quzong Gesang, Nuo Qun, Tashi Nyima,
- Abstract要約: 対立するテキストは、NLPの複数のサブフィールドにおいて重要な役割を果たす。
本稿では,HTL-GATについて紹介する。
- 参考スコア(独自算出の注目度): 7.5950217558686255
- License:
- Abstract: DNN-based language models perform excellently on various tasks, but even SOTA LLMs are susceptible to textual adversarial attacks. Adversarial texts play crucial roles in multiple subfields of NLP. However, current research has the following issues. (1) Most textual adversarial attack methods target rich-resourced languages. How do we generate adversarial texts for less-studied languages? (2) Most textual adversarial attack methods are prone to generating invalid or ambiguous adversarial texts. How do we construct high-quality adversarial robustness benchmarks? (3) New language models may be immune to part of previously generated adversarial texts. How do we update adversarial robustness benchmarks? To address the above issues, we introduce HITL-GAT, a system based on a general approach to human-in-the-loop generation of adversarial texts. HITL-GAT contains four stages in one pipeline: victim model construction, adversarial example generation, high-quality benchmark construction, and adversarial robustness evaluation. Additionally, we utilize HITL-GAT to make a case study on Tibetan script which can be a reference for the adversarial research of other less-studied languages.
- Abstract(参考訳): DNNベースの言語モデルは、様々なタスクにおいて優れた性能を発揮するが、SOTA LLMでさえ、テキストの敵対攻撃の影響を受けやすい。
対立するテキストは、NLPの複数のサブフィールドにおいて重要な役割を果たす。
しかし、現在の研究には次のような問題がある。
1)ほとんどのテキスト対逆攻撃法は、リッチリソース言語をターゲットにしている。
学習の少ない言語に対して、逆文を生成するにはどうすればいいのか?
2)ほとんどのテキスト対逆攻撃法は,無効あるいは曖昧な対逆攻撃文を生成する傾向にある。
高品質な対向ロバスト性ベンチマークをどのように構築するか?
(3) 新たな言語モデルは、以前に生成された敵対的テキストの一部に免疫を持つ可能性がある。
敵の堅牢性ベンチマークをどのように更新するか?
以上の課題に対処するため, HITL-GATを導入し, 対人文生成の一般的なアプローチに基づくシステムを提案する。
HITL-GATは1つのパイプラインに4つのステージを含む: 犠牲者モデル構築、敵のサンプル生成、高品質のベンチマーク構築、敵の堅牢性評価。
さらに、HITL-GATを用いてチベット文字のケーススタディを行い、他の未学習言語に対する敵対的な研究の参考となる。
関連論文リスト
- Deceiving Question-Answering Models: A Hybrid Word-Level Adversarial Approach [11.817276791266284]
本稿では,QAモデルを騙す新しい単語レベル対逆戦略であるQA-Attackを紹介する。
我々のアテンションベースの攻撃は、特定の単語を識別・ターゲットするために、カスタマイズされたアテンション機構と削除ランキング戦略を利用する。
同義語を慎重に選択し置換し、文法的整合性を保ちながら、間違った反応を生み出すためにモデルを誤解させる。
論文 参考訳(メタデータ) (2024-11-12T23:54:58Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - TextDefense: Adversarial Text Detection based on Word Importance Entropy [38.632552667871295]
NLPモデルの新たな逆例検出フレームワークであるTextDefenseを提案する。
実験の結果,TextDefenseは異なるアーキテクチャ,データセット,アタックメソッドに適用可能であることがわかった。
我々はNLPの敵攻撃と防衛方法の原理に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-02-12T11:12:44Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Generating Natural Language Adversarial Examples on a Large Scale with
Generative Models [41.85006993382117]
生成モデルを用いて,テキストをスクラッチから効率的に生成するエンド・ツー・エンド・ソリューションを提案する。
具体的には,条件付き変分オートエンコーダを訓練し,さらに逆転損失を加えて,逆転例の生成を誘導する。
敵対的テキストの妥当性を向上させるために,識別器と生成的敵対的ネットワークの訓練枠組みを利用する。
論文 参考訳(メタデータ) (2020-03-10T03:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。