Fugu-MT 論文翻訳(概要): Generating Valid and Natural Adversarial Examples with Large Language Models

論文の概要: Generating Valid and Natural Adversarial Examples with Large Language Models

arxiv url: http://arxiv.org/abs/2311.11861v1
Date: Mon, 20 Nov 2023 15:57:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 18:16:13.091307
Title: Generating Valid and Natural Adversarial Examples with Large Language Models
Title（参考訳）: 大規模言語モデルを用いた実例と自然例の生成
Authors: Zimu Wang, Wei Wang, Qi Chen, Qiufeng Wang, Anh Nguyen
Abstract要約: 敵対的攻撃モデルは有効でも自然でもないため、意味的維持、文法性、そして人間の知覚不能が失われる。本研究では,LLM-Attackを提案する。 The Movie Review (MR), IMDB, and Review Polarity datas against the baseline adversarial attack model showed the effect of LLM-Attack。
参考スコア（独自算出の注目度）: 18.944937459278197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning-based natural language processing (NLP) models, particularly pre-trained language models (PLMs), have been revealed to be vulnerable to adversarial attacks. However, the adversarial examples generated by many mainstream word-level adversarial attack models are neither valid nor natural, leading to the loss of semantic maintenance, grammaticality, and human imperceptibility. Based on the exceptional capacity of language understanding and generation of large language models (LLMs), we propose LLM-Attack, which aims at generating both valid and natural adversarial examples with LLMs. The method consists of two stages: word importance ranking (which searches for the most vulnerable words) and word synonym replacement (which substitutes them with their synonyms obtained from LLMs). Experimental results on the Movie Review (MR), IMDB, and Yelp Review Polarity datasets against the baseline adversarial attack models illustrate the effectiveness of LLM-Attack, and it outperforms the baselines in human and GPT-4 evaluation by a significant margin. The model can generate adversarial examples that are typically valid and natural, with the preservation of semantic meaning, grammaticality, and human imperceptibility.
Abstract（参考訳）: ディープラーニングベースの自然言語処理(NLP)モデル、特にプレトレーニング言語モデル(PLM)は、敵の攻撃に対して脆弱であることが判明した。しかし、多くの主流単語レベルの敵対的攻撃モデルによって生成された敵の例は有効でも自然でもないため、意味的維持、文法性、そして人間の認識不能が失われる。言語理解能力と大規模言語モデル(LLM)の生成能力に基づいて,LLMの有効例と自然な例の両方を生成することを目的としたLLM-Attackを提案する。この手法は、単語重要度ランキング(最も脆弱な単語を検索する)と単語同義語置換(LLMから得られる同義語に置き換える)の2段階からなる。映画レビュー(mr)、imdb、yelpでの実験結果では、攻撃モデルに対する極性データセットがllm攻撃の有効性を示しており、ヒトおよびgpt-4の評価において有意差でベースラインを上回っている。このモデルは、意味的意味、文法性、そして人間の非受容性を保存して、一般的に有効で自然な敵の例を生成することができる。

関連論文リスト

Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文参考訳（メタデータ） (2025-03-02T12:10:17Z)
Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文参考訳（メタデータ） (2024-09-11T17:09:49Z)
Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。 LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文参考訳（メタデータ） (2024-08-07T17:11:34Z)
Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study [0.0]
自然言語推論(NLI)は自然言語処理(NLP)の基盤である本研究では,ベンガル語のような低リソース言語におけるLLM(Large Language Models)の評価について検討した。
論文参考訳（メタデータ） (2024-05-05T13:57:05Z)
Improving Language Models Meaning Understanding and Consistency by Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-24T06:15:15Z)
Context-aware Adversarial Attack on Named Entity Recognition [15.049160192547909]
本研究では,文脈対応型対向攻撃法について検討し,モデルのロバスト性について検討する。具体的には、エンティティを認識するために最も情報に富む単語を摂動し、敵の例を作成することを提案する。実験と分析により,本手法は強いベースラインよりも間違った予測を下すのに有効であることが示された。
論文参考訳（メタデータ） (2023-09-16T14:04:23Z)
Language models are not naysayers: An analysis of language models on negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。 LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文参考訳（メタデータ） (2023-06-14T01:16:37Z)
How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。 RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-22T05:04:41Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文参考訳（メタデータ） (2020-09-16T06:53:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。