論文の概要: Graded Suspiciousness of Adversarial Texts to Human
- arxiv url: http://arxiv.org/abs/2410.04377v2
- Date: Thu, 23 Jan 2025 05:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:13.518075
- Title: Graded Suspiciousness of Adversarial Texts to Human
- Title(参考訳): 対人テキストの段階的観察
- Authors: Shakila Mahjabin Tonni, Pedro Faustini, Mark Dras,
- Abstract要約: この研究は、人間の不審感という概念を掘り下げるものであり、画像に基づく敵の例に見られる非受容性に対する伝統的な焦点とは異なる品質である。
敵文の疑わしい点に関する人文評価の新たなデータセットを収集,公開する。
本研究では,疑わしいテキスト生成における疑わしさを軽減するために,疑わしさを定量化し,今後の研究のベースラインを確立するための回帰モデルを開発する。
- 参考スコア(独自算出の注目度): 3.312665722657581
- License:
- Abstract: Adversarial examples pose a significant challenge to deep neural networks (DNNs) across both image and text domains, with the intent to degrade model performance through meticulously altered inputs. Adversarial texts, however, are distinct from adversarial images due to their requirement for semantic similarity and the discrete nature of the textual contents. This study delves into the concept of human suspiciousness, a quality distinct from the traditional focus on imperceptibility found in image-based adversarial examples. Unlike images, where adversarial changes are meant to be indistinguishable to the human eye, textual adversarial content must often remain undetected or non-suspicious to human readers, even when the text's purpose is to deceive NLP systems or bypass filters. In this research, we expand the study of human suspiciousness by analyzing how individuals perceive adversarial texts. We gather and publish a novel dataset of Likert-scale human evaluations on the suspiciousness of adversarial sentences, crafted by four widely used adversarial attack methods and assess their correlation with the human ability to detect machine-generated alterations. Additionally, we develop a regression-based model to quantify suspiciousness and establish a baseline for future research in reducing the suspiciousness in adversarial text generation. We also demonstrate how the regressor-generated suspicious scores can be incorporated into adversarial generation methods to produce texts that are less likely to be perceived as computer-generated. We make our human suspiciousness annotated data and our code available.
- Abstract(参考訳): 敵対的な例は、画像ドメインとテキストドメインの両方にわたるディープニューラルネットワーク(DNN)に対して、微妙に変化した入力によってモデルパフォーマンスを低下させることを意図して、大きな課題となっている。
しかし、敵対的テキストは、意味的類似性やテキスト内容の離散的な性質が要求されるため、敵対的画像とは異なっている。
この研究は、人間の不審感という概念を掘り下げるものであり、画像に基づく敵の例に見られる非受容性に対する伝統的な焦点とは異なる品質である。
敵対的変化が人間の目と区別できないように意図されている画像とは異なり、テキストの敵対的内容は、NLPシステムやバイパスフィルターを欺くことを目的としている場合でも、人間の読者にとって見つからない、あるいは目立たないままでいなければならない。
本研究では、個人が敵対的文章をどのように知覚するかを分析することによって、人間の不審性の研究を拡大する。
筆者らは,4つの広く使用されている対人攻撃法によって構築された,敵文の不審性に関する人間の評価に関する新たなデータセットを収集,公開し,機械による変化を検出する人間の能力との相関性を評価する。
さらに,疑わしいテキスト生成における疑わしさを軽減するために,疑わしさを定量化し,今後の研究のベースラインを確立するための回帰モデルを構築した。
また、回帰器が生成した疑わしいスコアが、コンピュータ生成と見なされる可能性が低いテキストを生成するために、逆生成方法にどのように組み込まれるかを示す。
人間の不審な注釈付きデータとコードを利用できるようにします。
関連論文リスト
- Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - How do humans perceive adversarial text? A reality check on the validity
and naturalness of word-based adversarial attacks [4.297786261992324]
敵対的攻撃は 不正なアルゴリズムだ 入力テキストを不当に修正して モデルに誤った予測をさせる
378人の被験者を対象に,最先端の手法によるテキスト対逆例の知覚可能性について調査した。
以上の結果から,既存のテキスト攻撃は人間が関与する現実のシナリオでは実行不可能であることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T21:52:13Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - Searching for the Essence of Adversarial Perturbations [73.96215665913797]
本稿では,ニューラルネットワークの誤予測の原因となる,人間の認識可能な情報を含む対人摂動について述べる。
この人間の認識可能な情報の概念は、敵の摂動に関連する重要な特徴を説明できる。
論文 参考訳(メタデータ) (2022-05-30T18:04:57Z) - Adversarial Robustness of Neural-Statistical Features in Detection of
Generative Transformers [6.209131728799896]
コンピュータ生成テキストの検出能力に対するニューラルおよび非ニューラルアプローチの評価を行った。
統計学的特徴は神経的特徴に劣るが, 統計学的特徴は追加の対向的堅牢性をもたらす。
我々は,逆テキスト品質の人的判断のための代用尺度として$Delta$MAUVEを考案した。
論文 参考訳(メタデータ) (2022-03-02T16:46:39Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。