論文の概要: What Learned Representations and Influence Functions Can Tell Us About
Adversarial Examples
- arxiv url: http://arxiv.org/abs/2309.10916v2
- Date: Thu, 21 Sep 2023 02:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 11:41:08.171250
- Title: What Learned Representations and Influence Functions Can Tell Us About
Adversarial Examples
- Title(参考訳): 学習した表現と影響関数が相手の例を教えてくれるもの
- Authors: Shakila Mahjabin Tonni and Mark Dras
- Abstract要約: ディープニューラルネットワークを騙すために小さな摂動を用いて意図的に構築された敵対的な例は、最初に画像処理で、最近ではNLPで研究された。
本稿では,NLPに2つのアプローチを適用する。1つは近接する近傍と影響関数に基づくもので,もう1つはマハラノビス距離に関するものである。
インフルエンス関数の新規利用は、NLPにおける逆例部分空間の性質が画像処理におけるそれとどのように関連しているか、また、NLPタスクの種類によってどのように異なるのかを洞察する。
- 参考スコア(独自算出の注目度): 3.310550432515165
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adversarial examples, deliberately crafted using small perturbations to fool
deep neural networks, were first studied in image processing and more recently
in NLP. While approaches to detecting adversarial examples in NLP have largely
relied on search over input perturbations, image processing has seen a range of
techniques that aim to characterise adversarial subspaces over the learned
representations.
In this paper, we adapt two such approaches to NLP, one based on nearest
neighbors and influence functions and one on Mahalanobis distances. The former
in particular produces a state-of-the-art detector when compared against
several strong baselines; moreover, the novel use of influence functions
provides insight into how the nature of adversarial example subspaces in NLP
relate to those in image processing, and also how they differ depending on the
kind of NLP task.
- Abstract(参考訳): 深いニューラルネットワークを騙すために小さな摂動を用いて意図的に構築された敵対的な例は、最初に画像処理で、最近ではNLPで研究された。
NLPにおける敵の例を検出するアプローチは、入力摂動の探索に大きく依存しているが、画像処理では、学習された表現上の敵のサブ空間を特徴付けるための様々な技術が見られた。
本稿では,NLPに2つのアプローチを適用する。1つは近接する近傍と影響関数に基づくもので,もう1つはマハラノビス距離に関するものである。
影響関数の新規利用は、NLPの逆例部分空間の性質が画像処理におけるそれとどのように関係しているか、また、NLPタスクの種類によってどのように異なるのかを洞察する。
関連論文リスト
- Targeted Visualization of the Backbone of Encoder LLMs [46.453758431767724]
注意に基づく大規模言語モデル(LLMs)は、自然言語処理(NLP)における最先端技術である。
エンコーダモデルの成功にもかかわらず、私たちはこの作業に集中していますが、バイアスの問題や敵の攻撃に対する感受性など、いくつかのリスクも抱えています。
決定関数の一部を2次元のデータセットとともに視覚化するDeepViewのNLPドメインへの応用について検討する。
論文 参考訳(メタデータ) (2024-03-26T12:51:02Z) - Interventional Probing in High Dimensions: An NLI Case Study [2.1028463367241033]
自然言語推論タスク(NLI)の「自然な論理」フラグメントの中間にある意味的特徴を検出するための探索戦略が示されている。
本研究では,これらの意味的特徴がNLI分類に与える影響を調べるために,新しい,既存の表現レベルの介入を行う。
論文 参考訳(メタデータ) (2023-04-20T14:34:31Z) - Latent Feature Relation Consistency for Adversarial Robustness [80.24334635105829]
深層ニューラルネットワークは、人間の知覚できない敵のノイズを自然の例に付加する敵の例を予測するときに、誤分類が起こる。
textbfLatent textbfFeature textbfRelation textbfConsistency (textbfLFRC)を提案する。
LFRCは、潜在空間における逆例の関係を、自然例と整合性に制約する。
論文 参考訳(メタデータ) (2023-03-29T13:50:01Z) - Detecting Textual Adversarial Examples Based on Distributional
Characteristics of Data Representations [11.93653349589025]
逆の例は、正しく分類された入力に小さな非ランダムな摂動を加えることで構成される。
自然言語タスクにおける敵対的攻撃へのアプローチは、文字レベル、単語レベル、フレーズレベルの摂動を用いて、過去5年間にブームとなった。
我々はこのギャップを埋めるために,NLPのための2つの新しいリアクティブ手法を提案する。
適応 LID と MDRE は、IMDB データセットに対する文字レベル、単語レベル、フレーズレベルの攻撃に対して、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-29T02:32:02Z) - Residue-Based Natural Language Adversarial Attack Detection [1.4213973379473654]
本研究は、逆例を識別する「レジデント」に基づく簡易な文埋め込み型検出器を提案する。
多くのタスクにおいて、移植された画像ドメイン検出器と、最先端のNLP特定検出器の状態を上回ります。
論文 参考訳(メタデータ) (2022-04-17T17:47:47Z) - Dual Contrastive Learning for General Face Forgery Detection [64.41970626226221]
本稿では,正と負のペアデータを構成するDCL (Dual Contrastive Learning) という新しい顔偽造検出フレームワークを提案する。
本研究は, 事例内コントラスト学習(Intra-ICL)において, 偽造顔における局所的内容の不整合に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-27T05:44:40Z) - Investigating the Role of Negatives in Contrastive Representation
Learning [59.30700308648194]
ノイズコントラスト学習は教師なし表現学習の一般的な手法である。
我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。
結果が我々の理論と広く一致しているのに対して、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。
論文 参考訳(メタデータ) (2021-06-18T06:44:16Z) - Understanding Adversarial Examples from the Mutual Influence of Images
and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。
以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。
我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文 参考訳(メタデータ) (2020-07-13T05:00:09Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。