論文の概要: Human-in-the-Loop Generation of Adversarial Texts: A Case Study on Tibetan Script
- arxiv url: http://arxiv.org/abs/2412.12478v4
- Date: Wed, 17 Sep 2025 05:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 14:28:51.286137
- Title: Human-in-the-Loop Generation of Adversarial Texts: A Case Study on Tibetan Script
- Title(参考訳): 対人文の対人生成:チベット文字を事例として
- Authors: Xi Cao, Yuan Sun, Jiajun Li, Quzong Gesang, Nuo Qun, Tashi Nyima,
- Abstract要約: 本稿では,HTL-GATという対話型システムについて紹介する。
チベット文字のケーススタディを通じて, HITL-GATの有用性を実証する。
- 参考スコア(独自算出の注目度): 12.108238610034961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DNN-based language models excel across various NLP tasks but remain highly vulnerable to textual adversarial attacks. While adversarial text generation is crucial for NLP security, explainability, evaluation, and data augmentation, related work remains overwhelmingly English-centric, leaving the problem of constructing high-quality and sustainable adversarial robustness benchmarks for lower-resourced languages both difficult and understudied. First, method customization for lower-resourced languages is complicated due to linguistic differences and limited resources. Second, automated attacks are prone to generating invalid or ambiguous adversarial texts. Last but not least, language models continuously evolve and may be immune to parts of previously generated adversarial texts. To address these challenges, we introduce HITL-GAT, an interactive system based on a general approach to human-in-the-loop generation of adversarial texts. Additionally, we demonstrate the utility of HITL-GAT through a case study on Tibetan script, employing three customized adversarial text generation methods and establishing its first adversarial robustness benchmark, providing a valuable reference for other lower-resourced languages.
- Abstract(参考訳): DNNベースの言語モデルは、様々なNLPタスクにまたがるが、テキストの敵対攻撃に対して非常に脆弱である。
NLPのセキュリティ、説明可能性、評価、データ拡張には、敵対的なテキスト生成が不可欠であるが、関連する作業は圧倒的に英語中心であり、低リソース言語のための高品質で持続可能な敵堅牢性ベンチマークを構築することの問題は、困難かつ未検討である。
第一に、低リソース言語に対するメソッドのカスタマイズは言語的差異と限られたリソースのために複雑である。
第二に、自動攻撃は無効または曖昧な敵対的テキストを生成する傾向にある。
最後に重要なことは、言語モデルは継続的に進化し、以前に生成された敵対的テキストの一部に免疫を持つ可能性があることである。
これらの課題に対処するために, HITL-GATという対話型システムを導入する。
さらに、チベット文字のケーススタディを通じてHITL-GATの有用性を実証し、3つのカスタマイズされた対角テキスト生成手法を使用し、その最初の対向ロバスト性ベンチマークを確立し、他の低リソース言語に対する貴重な参照を提供する。
関連論文リスト
- Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [49.13497493053742]
我々は、より現実的で強力な脅威である、人間が読める敵のプロンプトに焦点を当てている。
主な貢献は,(1)映画脚本を文脈として活用し,LLMを欺くような人間可読性プロンプトを生成すること,(2)非感覚的逆接接尾辞を独立した意味のあるテキストに変換するための逆接尾辞変換,(3) p-核サンプリングによるアドブプロンプター,(3)多種多様な人間可読性逆接尾辞を生成する方法である。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - Pay Attention to the Robustness of Chinese Minority Language Models! Syllable-level Textual Adversarial Attack on Tibetan Script [0.0]
テキストの敵対的攻撃は、中国の少数言語の情報処理における新たな課題である。
我々はTSAttackerと呼ばれるチベット語音節レベルのブラックボックステキスト対逆攻撃を提案する。
実験結果から,TSAttackerは有効であり,高品質な対向サンプルを生成することがわかった。
論文 参考訳(メタデータ) (2024-12-03T09:38:22Z) - PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。
相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。
以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - TextDefense: Adversarial Text Detection based on Word Importance Entropy [38.632552667871295]
NLPモデルの新たな逆例検出フレームワークであるTextDefenseを提案する。
実験の結果,TextDefenseは異なるアーキテクチャ,データセット,アタックメソッドに適用可能であることがわかった。
我々はNLPの敵攻撃と防衛方法の原理に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-02-12T11:12:44Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Generating Natural Language Adversarial Examples on a Large Scale with
Generative Models [41.85006993382117]
生成モデルを用いて,テキストをスクラッチから効率的に生成するエンド・ツー・エンド・ソリューションを提案する。
具体的には,条件付き変分オートエンコーダを訓練し,さらに逆転損失を加えて,逆転例の生成を誘導する。
敵対的テキストの妥当性を向上させるために,識別器と生成的敵対的ネットワークの訓練枠組みを利用する。
論文 参考訳(メタデータ) (2020-03-10T03:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。