論文の概要: A Girl Has A Name, And It's ... Adversarial Authorship Attribution for
Deobfuscation
- arxiv url: http://arxiv.org/abs/2203.11849v1
- Date: Tue, 22 Mar 2022 16:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:33:23.984142
- Title: A Girl Has A Name, And It's ... Adversarial Authorship Attribution for
Deobfuscation
- Title(参考訳): 女の子には名前があり、それは...
難読化のための敵対的権威の帰属
- Authors: Wanyue Zhai, Jonathan Rusert, Zubair Shafiq, Padmini Srinivasan
- Abstract要約: 本研究では,既存の難読化剤の有効性を低下させることが可能であることを示す。
以上の結果から,難治性の強い難治性アプローチの必要性が示唆された。
- 参考スコア(独自算出の注目度): 9.558392439655014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in natural language processing have enabled powerful
privacy-invasive authorship attribution. To counter authorship attribution,
researchers have proposed a variety of rule-based and learning-based text
obfuscation approaches. However, existing authorship obfuscation approaches do
not consider the adversarial threat model. Specifically, they are not evaluated
against adversarially trained authorship attributors that are aware of
potential obfuscation. To fill this gap, we investigate the problem of
adversarial authorship attribution for deobfuscation. We show that
adversarially trained authorship attributors are able to degrade the
effectiveness of existing obfuscators from 20-30% to 5-10%. We also evaluate
the effectiveness of adversarial training when the attributor makes incorrect
assumptions about whether and which obfuscator was used. While there is a a
clear degradation in attribution accuracy, it is noteworthy that this
degradation is still at or above the attribution accuracy of the attributor
that is not adversarially trained at all. Our results underline the need for
stronger obfuscation approaches that are resistant to deobfuscation
- Abstract(参考訳): 自然言語処理の最近の進歩は、強力なプライバシーを侵害する権威の帰属を可能にした。
著者の帰属に対抗するために、研究者は様々なルールベースおよび学習ベースのテキスト難読化アプローチを提案した。
しかし、既存のオーサシップ難読化アプローチは、敵の脅威モデルを考慮していない。
具体的には、潜在的な難読化に気づいている敵の訓練を受けた著作家に対して評価されない。
このギャップを埋めるために, 難読化に対する敵対的著作者帰属の問題を検討する。
その結果,既存の難読化者の有効性を20~30%から5~10%に低下させることができた。
また, オーファシエータの使用の有無に関する誤った仮定をアトリビュータが行なった場合の, 逆行訓練の有効性も評価した。
帰属精度は明らかに低下するが、この劣化は相変わらず敵意的に訓練されていない帰属者の帰属精度以上であることは注目に値する。
私たちの結果は、難読化に抵抗するより強固な難読化アプローチの必要性を強調する
関連論文リスト
- JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - UID as a Guiding Metric for Automated Authorship Obfuscation [0.0]
自動著者トリビュータは、著者のプールにテキストの著者を非常に正確に帰属させることができる。
これらの自動消火器の台頭に対応するため、自動消火器の台頭も行われている。
そこで我々は,一様情報密度(UID)理論として知られる心理学言語理論を利用した3つの新しい著者難読化手法を考案した。
論文 参考訳(メタデータ) (2023-11-05T22:16:37Z) - Reproduction and Replication of an Adversarial Stylometry Experiment [8.374836126235499]
本稿では,著者帰属に対する防衛に関する基礎的研究において,実験を再現し,再現する。
完全自動翻訳法であるラウンドトリップ翻訳が再検査に有用であることを示す新たな証拠が発見された。
論文 参考訳(メタデータ) (2022-08-15T18:24:00Z) - Gradient Obfuscation Checklist Test Gives a False Sense of Security [85.8719866710494]
このような防御の堅牢性の主な源は、しばしば勾配の難読化によるものであり、誤ったセキュリティの感覚を与えている。
5つの特徴が同定され, 強靭性の改善は, 主に勾配難読化によって引き起こされる。
この5つの特徴を十分なテストとして利用し、勾配難読化がロバスト性の主要な源であるかどうかを判断する傾向が強まっている。
論文 参考訳(メタデータ) (2022-06-03T17:27:10Z) - Avengers Ensemble! Improving Transferability of Authorship Obfuscation [7.962140902232626]
スティロメトリのアプローチは現実世界の著者の帰属に非常に効果的であることが示されている。
本稿では,トランスファー可能なオーサシップ難読化のためのアンサンブルに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-15T00:11:40Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Robust and Accurate Authorship Attribution via Program Normalization [24.381734600088453]
ソースコード帰属アプローチは、ディープラーニングの急速な進歩により、驚くほどの精度を実現している。
特に、他の作者の偽作を作ろうとする敵や、原作者を偽装しようとする敵に騙されやすい。
我々は、理論上、著者帰属アプローチの堅牢性を保証する新しい学習フレームワークである$textitnormalize-and-predict$(textitN&P$)を提案する。
論文 参考訳(メタデータ) (2020-07-01T21:27:38Z) - Proper Network Interpretability Helps Adversarial Robustness in
Classification [91.39031895064223]
本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。
我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。
その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-26T01:31:31Z) - A Girl Has A Name: Detecting Authorship Obfuscation [12.461503242570643]
著者の属性は、テクストの分析に基づいてテキストの著者を特定することを目的としている。
著者の難読化は、テキストのスタイルを変更することによって著者の帰属を防ぐことを目的としている。
我々は、敵の脅威モデルの下で、最先端のオーサシップ難読化手法のステルス性を評価する。
論文 参考訳(メタデータ) (2020-05-02T04:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。