論文の概要: Avengers Ensemble! Improving Transferability of Authorship Obfuscation
- arxiv url: http://arxiv.org/abs/2109.07028v1
- Date: Wed, 15 Sep 2021 00:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 03:15:56.730359
- Title: Avengers Ensemble! Improving Transferability of Authorship Obfuscation
- Title(参考訳): アベンジャーズ・アンサンブル!
オーサシップ難読化の転送性の向上
- Authors: Muhammad Haroon, Muhammad Fareed Zaffar, Padmini Srinivasan, Zubair
Shafiq
- Abstract要約: スティロメトリのアプローチは現実世界の著者の帰属に非常に効果的であることが示されている。
本稿では,トランスファー可能なオーサシップ難読化のためのアンサンブルに基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.962140902232626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stylometric approaches have been shown to be quite effective for real-world
authorship attribution. To mitigate the privacy threat posed by authorship
attribution, researchers have proposed automated authorship obfuscation
approaches that aim to conceal the stylometric artefacts that give away the
identity of an anonymous document's author. Recent work has focused on
authorship obfuscation approaches that rely on black-box access to an
attribution classifier to evade attribution while preserving semantics.
However, to be useful under a realistic threat model, it is important that
these obfuscation approaches work well even when the adversary's attribution
classifier is different from the one used internally by the obfuscator.
Unfortunately, existing authorship obfuscation approaches do not transfer well
to unseen attribution classifiers. In this paper, we propose an ensemble-based
approach for transferable authorship obfuscation. Our experiments show that if
an obfuscator can evade an ensemble attribution classifier, which is based on
multiple base attribution classifiers, it is more likely to transfer to
different attribution classifiers. Our analysis shows that ensemble-based
authorship obfuscation achieves better transferability because it combines the
knowledge from each of the base attribution classifiers by essentially
averaging their decision boundaries.
- Abstract(参考訳): スティロメトリのアプローチは現実世界の著者の帰属に非常に効果的であることが示されている。
著者の帰属によって引き起こされるプライバシーの脅威を軽減するため、研究者は匿名文書の著者の身元を隠蔽することを目的とした自動著者難読化アプローチを提案した。
最近の研究は、意味を保ちながら帰属を避けるために帰属分類器へのブラックボックスアクセスに依存する著者の難読化アプローチに焦点を当てている。
しかし, 現実的な脅威モデルの下では, 敵の帰属分類器が内部で使用されるものと異なる場合でも, これらの難読化アプローチがうまく機能することが重要である。
残念ながら、既存のオーサシップ難読化アプローチは、目に見えない帰属分類器にうまく移行しない。
本稿では,トランスファー可能なオーサシップ難読化のためのアンサンブルに基づくアプローチを提案する。
本実験により,複数のベースアトリビューション分類器に基づくアンサンブルアトリビューション分類器を回避できれば,異なるアトリビューション分類器に移行する可能性が高まることが示された。
分析の結果,決定バウンダリを本質的に平均することで,各ベース属性分類器からの知識を組み合わせることにより,伝達性が向上することが示された。
関連論文リスト
- JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - ALISON: Fast and Effective Stylometric Authorship Obfuscation [14.297046770461264]
オーサリング・アトリビューション (AA) とオーサリング・オブファシケーション (AO) は、プライバシ研究の重要性を高めるための2つの課題である。
本稿では,トレーニング/難読化時間を劇的に短縮する実用的なAO手法ALISONを提案する。
また、ALISONは、4つのSOTA AAメソッドがChatGPT生成したテキストのオーサシップを正確に決定するのを防ぐことができることを示した。
論文 参考訳(メタデータ) (2024-02-01T18:22:32Z) - UID as a Guiding Metric for Automated Authorship Obfuscation [0.0]
自動著者トリビュータは、著者のプールにテキストの著者を非常に正確に帰属させることができる。
これらの自動消火器の台頭に対応するため、自動消火器の台頭も行われている。
そこで我々は,一様情報密度(UID)理論として知られる心理学言語理論を利用した3つの新しい著者難読化手法を考案した。
論文 参考訳(メタデータ) (2023-11-05T22:16:37Z) - Improving Adversarial Robustness via Joint Classification and Multiple
Explicit Detection Classes [11.584771636861877]
証明可能なフレームワークは、複数の明示的なAbtainクラスを持つネットワークの拡張によって恩恵を受けることができることを示す。
本稿では,複数クラスをフル活用することで,このデジェネリティーに対処するための正規化手法とトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T01:23:33Z) - A Girl Has A Name, And It's ... Adversarial Authorship Attribution for
Deobfuscation [9.558392439655014]
本研究では,既存の難読化剤の有効性を低下させることが可能であることを示す。
以上の結果から,難治性の強い難治性アプローチの必要性が示唆された。
論文 参考訳(メタデータ) (2022-03-22T16:26:09Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z) - A Girl Has A Name: Detecting Authorship Obfuscation [12.461503242570643]
著者の属性は、テクストの分析に基づいてテキストの著者を特定することを目的としている。
著者の難読化は、テキストのスタイルを変更することによって著者の帰属を防ぐことを目的としている。
我々は、敵の脅威モデルの下で、最先端のオーサシップ難読化手法のステルス性を評価する。
論文 参考訳(メタデータ) (2020-05-02T04:52:55Z) - Breaking certified defenses: Semantic adversarial examples with spoofed
robustness certificates [57.52763961195292]
本稿では,分類器のラベル付け機能だけでなく,証明書生成機能を利用した新たな攻撃を提案する。
提案手法は, 画像がクラス境界から遠ざかる大きな摂動を, 対向例の不受容性を保ちながら適用する。
論文 参考訳(メタデータ) (2020-03-19T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。