Fugu-MT 論文翻訳(概要): A Girl Has A Name, And It's ... Adversarial Authorship Attribution for Deobfuscation

論文の概要: A Girl Has A Name, And It's ... Adversarial Authorship Attribution for Deobfuscation

arxiv url: http://arxiv.org/abs/2203.11849v1
Date: Tue, 22 Mar 2022 16:26:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-23 13:33:23.984142
Title: A Girl Has A Name, And It's ... Adversarial Authorship Attribution for Deobfuscation
Title（参考訳）: 女の子には名前があり、それは... 難読化のための敵対的権威の帰属
Authors: Wanyue Zhai, Jonathan Rusert, Zubair Shafiq, Padmini Srinivasan
Abstract要約: 本研究では,既存の難読化剤の有効性を低下させることが可能であることを示す。以上の結果から,難治性の強い難治性アプローチの必要性が示唆された。
参考スコア（独自算出の注目度）: 9.558392439655014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in natural language processing have enabled powerful privacy-invasive authorship attribution. To counter authorship attribution, researchers have proposed a variety of rule-based and learning-based text obfuscation approaches. However, existing authorship obfuscation approaches do not consider the adversarial threat model. Specifically, they are not evaluated against adversarially trained authorship attributors that are aware of potential obfuscation. To fill this gap, we investigate the problem of adversarial authorship attribution for deobfuscation. We show that adversarially trained authorship attributors are able to degrade the effectiveness of existing obfuscators from 20-30% to 5-10%. We also evaluate the effectiveness of adversarial training when the attributor makes incorrect assumptions about whether and which obfuscator was used. While there is a a clear degradation in attribution accuracy, it is noteworthy that this degradation is still at or above the attribution accuracy of the attributor that is not adversarially trained at all. Our results underline the need for stronger obfuscation approaches that are resistant to deobfuscation
Abstract（参考訳）: 自然言語処理の最近の進歩は、強力なプライバシーを侵害する権威の帰属を可能にした。著者の帰属に対抗するために、研究者は様々なルールベースおよび学習ベースのテキスト難読化アプローチを提案した。しかし、既存のオーサシップ難読化アプローチは、敵の脅威モデルを考慮していない。具体的には、潜在的な難読化に気づいている敵の訓練を受けた著作家に対して評価されない。このギャップを埋めるために, 難読化に対する敵対的著作者帰属の問題を検討する。その結果,既存の難読化者の有効性を20～30%から5～10%に低下させることができた。また, オーファシエータの使用の有無に関する誤った仮定をアトリビュータが行なった場合の, 逆行訓練の有効性も評価した。帰属精度は明らかに低下するが、この劣化は相変わらず敵意的に訓練されていない帰属者の帰属精度以上であることは注目に値する。私たちの結果は、難読化に抵抗するより強固な難読化アプローチの必要性を強調する

関連論文リスト

Masks and Mimicry: Strategic Obfuscation and Impersonation Attacks on Authorship Verification [1.0168443186928038]
著者モデル(特に著者検証モデル)の強力なLSM攻撃に対する対角的堅牢性を評価する。どちらの攻撃も、原文の意味を保ちながら著者の執筆スタイルを隠蔽または模倣することが目的である。難読化攻撃と偽装攻撃の両方で最大92%と78%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2025-03-24T19:36:22Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods [5.239989658197324]
著者の難読化は、著者の身元をテキスト内で偽装することを目的としている。この変更は、プライバシーとユーティリティのバランスを取る必要がある。政策最適化を用いたタスク指向オーサリング難読化(TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization)を提案する。
論文参考訳（メタデータ） (2024-07-31T14:24:01Z)
Improving Adversarial Robustness via Decoupled Visual Representation Masking [65.73203518658224]
本稿では,特徴分布の観点から,ロバストな特徴の2つの新しい特性を強調した。現状の防衛手法は、上記の2つの問題にうまく対処することを目的としている。具体的には、分離された視覚的表現マスキングに基づく、シンプルだが効果的な防御法を提案する。
論文参考訳（メタデータ） (2024-06-16T13:29:41Z)
Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-21T18:28:43Z)
JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文参考訳（メタデータ） (2024-02-13T19:54:29Z)
UID as a Guiding Metric for Automated Authorship Obfuscation [0.0]
自動著者トリビュータは、著者のプールにテキストの著者を非常に正確に帰属させることができる。これらの自動消火器の台頭に対応するため、自動消火器の台頭も行われている。そこで我々は,一様情報密度(UID)理論として知られる心理学言語理論を利用した3つの新しい著者難読化手法を考案した。
論文参考訳（メタデータ） (2023-11-05T22:16:37Z)
Gradient Obfuscation Checklist Test Gives a False Sense of Security [85.8719866710494]
このような防御の堅牢性の主な源は、しばしば勾配の難読化によるものであり、誤ったセキュリティの感覚を与えている。 5つの特徴が同定され, 強靭性の改善は, 主に勾配難読化によって引き起こされる。この5つの特徴を十分なテストとして利用し、勾配難読化がロバスト性の主要な源であるかどうかを判断する傾向が強まっている。
論文参考訳（メタデータ） (2022-06-03T17:27:10Z)
Avengers Ensemble! Improving Transferability of Authorship Obfuscation [7.962140902232626]
スティロメトリのアプローチは現実世界の著者の帰属に非常に効果的であることが示されている。本稿では,トランスファー可能なオーサシップ難読化のためのアンサンブルに基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-09-15T00:11:40Z)
Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文参考訳（メタデータ） (2021-06-17T14:23:54Z)
Robust and Accurate Authorship Attribution via Program Normalization [24.381734600088453]
ソースコード帰属アプローチは、ディープラーニングの急速な進歩により、驚くほどの精度を実現している。特に、他の作者の偽作を作ろうとする敵や、原作者を偽装しようとする敵に騙されやすい。我々は、理論上、著者帰属アプローチの堅牢性を保証する新しい学習フレームワークである$textitnormalize-and-predict$(textitN&P$)を提案する。
論文参考訳（メタデータ） (2020-07-01T21:27:38Z)
Proper Network Interpretability Helps Adversarial Robustness in Classification [91.39031895064223]
本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
論文参考訳（メタデータ） (2020-06-26T01:31:31Z)
A Girl Has A Name: Detecting Authorship Obfuscation [12.461503242570643]
著者の属性は、テクストの分析に基づいてテキストの著者を特定することを目的としている。著者の難読化は、テキストのスタイルを変更することによって著者の帰属を防ぐことを目的としている。我々は、敵の脅威モデルの下で、最先端のオーサシップ難読化手法のステルス性を評価する。
論文参考訳（メタデータ） (2020-05-02T04:52:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。