論文の概要: UID as a Guiding Metric for Automated Authorship Obfuscation
- arxiv url: http://arxiv.org/abs/2312.03709v1
- Date: Sun, 5 Nov 2023 22:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 03:20:14.986094
- Title: UID as a Guiding Metric for Automated Authorship Obfuscation
- Title(参考訳): 自動オーサリング難読化のための指導基準としてのUID
- Authors: Nicholas Abegg
- Abstract要約: 自動著者トリビュータは、著者のプールにテキストの著者を非常に正確に帰属させることができる。
これらの自動消火器の台頭に対応するため、自動消火器の台頭も行われている。
そこで我々は,一様情報密度(UID)理論として知られる心理学言語理論を利用した3つの新しい著者難読化手法を考案した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protecting the anonymity of authors has become a difficult task given the
rise of automated authorship attributors. These attributors are capable of
attributing the author of a text amongst a pool of authors with great accuracy.
In order to counter the rise of these automated attributors, there has also
been a rise of automated obfuscators. These obfuscators are capable of taking
some text, perturbing the text in some manner, and, if successful, deceive an
automated attributor in misattributing the wrong author. We devised three novel
authorship obfuscation methods that utilized a Psycho-linguistic theory known
as Uniform Information Density (UID) theory. This theory states that humans
evenly distribute information amongst speech or text so as to maximize
efficiency. Utilizing this theory in our three obfuscation methods, we
attempted to see how successfully we could deceive two separate attributors.
Obfuscating 50 human and 50 GPT-3 generated articles from the TuringBench
dataset, we observed how well each method did on deceiving the attributors.
While the quality of the obfuscation in terms of semantic preservation and
sensical changes was high, we were not able to find any evidence to indicate
UID was a viable guiding metric for obfuscation. However, due to restrictions
in time we were unable to test a large enough sample of article or tune the
parameters for our attributors to comment conclusively on UID in obfuscation.
- Abstract(参考訳): 著者の匿名性を保護することは、自動著作者の増加に伴い難しい課題となっている。
これらの属性は、著者のプールにテキストの著者を非常に正確に帰属させることができる。
これらの自動化アトリビュータの台頭に対抗するために、自動化されたオブフューシレータも増えている。
これらの難読者は、あるテキストを受け取り、何らかの方法でテキストを摂動し、成功すれば、自動化された属性を欺いて間違った著者を誤帰させる。
我々は,一様情報密度(uid)理論として知られる心理言語理論を用いた3つの新しい著者難読化手法を考案した。
この理論では、人間は効率を最大化するために、音声やテキスト間で情報を均等に分配する。
この理論を3つの難読化法で活用し, 2つの分離アトリビュータを欺くことに成功した。
また,TuringBenchデータセットから得られた50人の人間と50人のGPT-3生成記事から,各手法が属性の認識にどの程度効果があったかを調べた。
意味的保存や感覚的変化の点で難読化の質は高かったが,UIDが難読化の有効な指標であることを示す証拠は見つからなかった。
しかし、時間的制約のため、大量の記事のサンプルをテストできなかったり、属性のパラメータを調整できなかったり、難読化でUIDに決定的にコメントすることができなかった。
関連論文リスト
- Keep It Private: Unsupervised Privatization of Online Text [13.381890596224867]
音声,感覚,プライバシのバランスを保った書き直しを生成するために,強化学習を通じて大規模言語モデルを微調整する自動テキスト民営化フレームワークを導入する。
短命長テキストからなる68kの著者による大規模な英語Reddit投稿に対して,これを広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-16T17:12:18Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - A Girl Has A Name, And It's ... Adversarial Authorship Attribution for
Deobfuscation [9.558392439655014]
本研究では,既存の難読化剤の有効性を低下させることが可能であることを示す。
以上の結果から,難治性の強い難治性アプローチの必要性が示唆された。
論文 参考訳(メタデータ) (2022-03-22T16:26:09Z) - Protecting Anonymous Speech: A Generative Adversarial Network
Methodology for Removing Stylistic Indicators in Text [2.9005223064604078]
我々は,生成的敵ネットワークの構築によるオーサリングの匿名化への新たなアプローチを開発する。
完全自動方式は,コンテンツ保存や流布の点で他の手法と同等の結果が得られる。
我々のアプローチは、オープンセットの文脈に順応し、これまで遭遇したことのない著者の文章を匿名化することができる。
論文 参考訳(メタデータ) (2021-10-18T17:45:56Z) - Avengers Ensemble! Improving Transferability of Authorship Obfuscation [7.962140902232626]
スティロメトリのアプローチは現実世界の著者の帰属に非常に効果的であることが示されている。
本稿では,トランスファー可能なオーサシップ難読化のためのアンサンブルに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-15T00:11:40Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - A Girl Has A Name: Detecting Authorship Obfuscation [12.461503242570643]
著者の属性は、テクストの分析に基づいてテキストの著者を特定することを目的としている。
著者の難読化は、テキストのスタイルを変更することによって著者の帰属を防ぐことを目的としている。
我々は、敵の脅威モデルの下で、最先端のオーサシップ難読化手法のステルス性を評価する。
論文 参考訳(メタデータ) (2020-05-02T04:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。