論文の概要: With False Friends Like These, Who Can Have Self-Knowledge?
- arxiv url: http://arxiv.org/abs/2012.14738v1
- Date: Tue, 29 Dec 2020 12:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:28:44.804061
- Title: With False Friends Like These, Who Can Have Self-Knowledge?
- Title(参考訳): このような偽りの友人で、誰に自認できるのか。
- Authors: Lue Tao, Songcan Chen
- Abstract要約: 本稿では,過度な感度,すなわち誤分類例が容易に摂動できるという,興味深く,見過ごされがちな結果について考察する。
このような偽の友達があれば、パフォーマンスの悪いモデルは最先端のモデルのように振る舞うことができる。
デプロイ者が低臨界的なパフォーマンスを信頼し、実世界のアプリケーションで「よく機能する」モデルを使用すると、潜在的なセキュリティ上の懸念は良性のある環境でも現れます。
- 参考スコア(独自算出の注目度): 26.582668429147777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial examples arise from excessive sensitivity of a model. Commonly
studied adversarial examples are malicious inputs, crafted by an adversary from
correctly classified examples, to induce misclassification. This paper studies
an intriguing, yet far overlooked consequence of the excessive sensitivity,
that is, a misclassified example can be easily perturbed to help the model to
produce correct output. Such perturbed examples look harmless, but actually can
be maliciously utilized by a false friend to make the model self-satisfied.
Thus we name them hypocritical examples. With false friends like these, a
poorly performed model could behave like a state-of-the-art one. Once a
deployer trusts the hypocritical performance and uses the "well-performed"
model in real-world applications, potential security concerns appear even in
benign environments. In this paper, we formalize the hypocritical risk for the
first time and propose a defense method specialized for hypocritical examples
by minimizing the tradeoff between natural risk and an upper bound of
hypocritical risk. Moreover, our theoretical analysis reveals connections
between adversarial risk and hypocritical risk. Extensive experiments verify
the theoretical results and the effectiveness of our proposed methods.
- Abstract(参考訳): 敵対的な例はモデルの過度な感度から生じる。
一般的に研究されている敵の例は悪意のある入力であり、正しく分類された例から敵が作り、誤分類を引き起こす。
本稿では,過度に感度が高すぎることによる興味深く,かつ見過ごされている結果,すなわち,誤分類された例は容易に摂動でき,モデルが正しい出力を生成するのに役立つ。
このような混乱した例は無害に見えるが、実際には悪意のある友人によってモデルに自己満足させるために悪用されることがある。
したがって、これらを偽批判例と呼ぶ。
このような偽の友達があれば、パフォーマンスの悪いモデルは最先端のモデルのように振る舞うことができる。
デプロイ担当者がプレクリティカルなパフォーマンスを信頼し、現実世界のアプリケーションで"well-performed"モデルを使用すると、潜在的なセキュリティ上の懸念が良質な環境にさえ現れます。
本報告では, 初めて偽善リスクを定式化し, 自然リスクと偽善リスクの上限のトレードオフを最小化することにより, 偽善例に特化した防御手法を提案する。
さらに, 理論的解析により, 対立リスクと低臨界リスクの関係が明らかになった。
実験により,提案手法の理論的結果と有効性について検証した。
関連論文リスト
- Deferred Poisoning: Making the Model More Vulnerable via Hessian Singularization [39.37308843208039]
我々は、より脅迫的なタイプの毒殺攻撃(Dederred Poisoning Attack)を導入する。
この新たな攻撃により、モデルは通常、トレーニングと検証フェーズで機能するが、回避攻撃や自然騒音に非常に敏感になる。
提案手法の理論的および実証的な解析を行い、画像分類タスクの実験を通してその効果を検証した。
論文 参考訳(メタデータ) (2024-11-06T08:27:49Z) - Mist: Towards Improved Adversarial Examples for Diffusion Models [0.8883733362171035]
拡散モデル(DM)は、人工知能によって生成されたコンテンツ、特にアート作品の制作において大きな成功を収めた。
侵害者は、認可されていない人造絵画をDMで模倣することで利益を得ることができる。
近年の研究では、拡散モデルに対する様々な逆例が、これらの著作権侵害に対する効果的な手段である可能性が示唆されている。
論文 参考訳(メタデータ) (2023-05-22T03:43:34Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Understanding Adversarial Robustness Against On-manifold Adversarial
Examples [22.613529680140854]
トレーニングされたモデルは、元のデータに小さな摂動を加えることで、容易に攻撃することができる。
近年の研究では、manifold 対逆の例も存在していることが示されている。
本研究は, 対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数対数
論文 参考訳(メタデータ) (2022-10-02T05:40:47Z) - Transferability Ranking of Adversarial Examples [20.41013432717447]
本稿では,転送攻撃処理を洗練させるランキング戦略を提案する。
多様な代理モデルの集合を利用することで, 逆例の転送可能性を予測することができる。
提案手法を用いて, 対向例の移動率を, ランダムな選択から, ほぼ上界レベルまで20%に引き上げることができた。
論文 参考訳(メタデータ) (2022-08-23T11:25:16Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Simulated Adversarial Testing of Face Recognition Models [53.10078734154151]
本稿では,シミュレータを用いて機械学習アルゴリズムの検証方法を学ぶためのフレームワークを提案する。
実データでトレーニングされたモデルの弱点が、シミュレーションサンプルを使って発見できることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-08T17:58:10Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Are Adversarial Examples Created Equal? A Learnable Weighted Minimax
Risk for Robustness under Non-uniform Attacks [70.11599738647963]
敵の訓練は、強力な攻撃に耐える数少ない防衛の1つである。
従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提とします。
非一様攻撃に対して重み付けされたミニマックスリスク最適化を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:20:35Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。