論文の概要: StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
- arxiv url: http://arxiv.org/abs/2408.15666v1
- Date: Wed, 28 Aug 2024 09:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:21:03.644247
- Title: StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
- Title(参考訳): StyleRemix: スタイル要素の蒸留と摂動による解釈可能なオーサリング難読化
- Authors: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi,
- Abstract要約: 著者の難読化は、著者のアイデンティティを意図的に曖昧にするためにテキストを書き直すことは重要だが、難しい作業である。
大規模言語モデル(LLM)を用いた現在の手法では、解釈可能性や制御性が欠如している。
入力テキストの特定のきめ細かいスタイル要素を摂動する適応的かつ解釈可能な難読化手法であるStyleRemixを開発した。
- 参考スコア(独自算出の注目度): 46.20119192909325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Authorship obfuscation, rewriting a text to intentionally obscure the identity of the author, is an important but challenging task. Current methods using large language models (LLMs) lack interpretability and controllability, often ignoring author-specific stylistic features, resulting in less robust performance overall. To address this, we develop StyleRemix, an adaptive and interpretable obfuscation method that perturbs specific, fine-grained style elements of the original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA) modules to rewrite an input specifically along various stylistic axes (e.g., formality and length) while maintaining low computational cost. StyleRemix outperforms state-of-the-art baselines and much larger LLMs in a variety of domains as assessed by both automatic and human evaluation. Additionally, we release AuthorMix, a large set of 30K high-quality, long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a parallel corpus of 1,500 texts spanning seven style axes in 16 unique directions
- Abstract(参考訳): 著者による難読化は、著者のアイデンティティを故意に隠蔽するためにテキストを書き直すことであり、重要なが難しい課題である。
大規模言語モデル(LLM)を用いた現在の手法では、解釈可能性や制御性が欠如しており、著者固有のスタイリスティックな特徴を無視することが多い。
そこで本研究では,適応的かつ解釈可能な難読化手法であるStyleRemixを開発した。
StyleRemixは、事前訓練されたローランク適応(LoRA)モジュールを使用して、計算コストを低く保ちながら、様々なスタイリスティックな軸(例えば、形式、長さ)に沿って入力を具体的に書き換える。
StyleRemixは、自動評価と人的評価の両方で評価されるように、さまざまな領域における最先端のベースラインとはるかに大きなLLMよりも優れています。
さらに、14の著者と4つのドメインからなる多種多様な集合からなる30Kの高品質な長文からなる大集合である AuthorMix と、7つのスタイルの軸に16の方向をまたがる1500のテキストからなる平行コーパスである DiSC をリリースする。
関連論文リスト
- Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - TinyStyler: Efficient Few-Shot Text Style Transfer with Authorship Embeddings [51.30454130214374]
本稿では,TinyStylerについて紹介する。
我々は、TinyStylerのテキスト属性スタイル転送機能について、自動評価と人的評価で評価する。
私たちのモデルはhttps://huggingface.co/tinystyler/tinystyler.comで公開されています。
論文 参考訳(メタデータ) (2024-06-21T18:41:22Z) - Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Towards Writing Style Adaptation in Handwriting Recognition [0.0]
著者のアイデンティティを付加的な入力として捉えるために,著者に依存したパラメータを持つモデルについて検討する。
本稿では,学習した分割の埋め込みを前提とした適応型インスタンス正規化層であるWriter Style Block (WSB)を提案する。
著者に依存したシナリオでは,本手法はWSBのないベースラインよりも優れており,新たなライターへの埋め込みを推定することが可能であることを示す。
論文 参考訳(メタデータ) (2023-02-13T12:36:17Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Style Pooling: Automatic Text Style Obfuscation for Improved
Classification Fairness [32.3545569050269]
求職アプリケーションの書き込みスタイルは、採用決定のバイアスにつながる可能性のある候補の保護された属性を明らかにする可能性がある。
本稿では,VAE ベースのフレームワークを提案する。テキスト自体を自動書き直しすることで,文体変換による人文文の文体的特徴を解消する。
論文 参考訳(メタデータ) (2021-09-10T02:17:21Z) - DRAG: Director-Generator Language Modelling Framework for Non-Parallel
Author Stylized Rewriting [9.275464023441227]
書き直しは、入力テキストを特定の著者のスタイルで書き直す作業である。
著者のスタイルでコンテンツの書き直しを行うためのディレクター・ジェネレータフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-28T06:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。