論文の概要: JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models
- arxiv url: http://arxiv.org/abs/2402.08761v1
- Date: Tue, 13 Feb 2024 19:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:58:05.207867
- Title: JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models
- Title(参考訳): JAMDEC:小言語モデルによる制約付きデコードによる教師なしオーサシップ難読化
- Authors: Jillian Fisher, Ximing Lu, Jaehun Jung, Liwei Jiang, Zaid Harchaoui,
Yejin Choi
- Abstract要約: 著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
- 参考スコア(独自算出の注目度): 53.83273575102087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The permanence of online content combined with the enhanced authorship
identification techniques calls for stronger computational methods to protect
the identity and privacy of online authorship when needed, e.g., blind reviews
for scientific papers, anonymous online reviews, or anonymous interactions in
the mental health forums. In this paper, we propose an unsupervised
inference-time approach to authorship obfuscation to address the unique
challenges of authorship obfuscation: lack of supervision data for diverse
authorship and domains, and the need for a sufficient level of revision beyond
simple paraphrasing to obfuscate the authorship, all the while preserving the
original content and fluency.
We introduce JAMDEC, a user-controlled, inference-time algorithm for
authorship obfuscation that can be in principle applied to any text and
authorship. Our approach builds on small language models such as GPT2-XL in
order to help avoid disclosing the original content to proprietary LLM's APIs,
while also reducing the performance gap between small and large language models
via algorithmic enhancement. The key idea behind our approach is to boost the
creative power of smaller language models through constrained decoding, while
also allowing for user-specified controls and flexibility. Experimental results
demonstrate that our approach based on GPT2-XL outperforms previous
state-of-the-art methods based on comparably small models, while performing
competitively against GPT3.5 175B, a propriety model that is two orders of
magnitudes larger.
- Abstract(参考訳): オンラインコンテンツの永続性と著者識別技術の強化は、必要に応じてオンライン著作者のアイデンティティとプライバシを保護する強力な計算手法を要求、例えば科学論文の盲目レビュー、匿名オンラインレビュー、精神保健フォーラムでの匿名の対話などである。
本稿では,著者の難読化に対する教師なしの推論時間アプローチを提案し,著者の難読化の独特な課題への対処法を提案する。
我々は,任意のテキストや著者に対して原則的に適用可能な,著者の難読化のためのユーザ制御型推論時間アルゴリズムであるjamdecを紹介する。
私たちのアプローチは、gpt2-xlのような小さな言語モデルに基づいており、オリジナルのコンテンツをプロプライエタリなllmのapiに開示しないようにするとともに、アルゴリズムによる拡張によって、小規模言語モデルと大規模言語モデルのパフォーマンスギャップを低減します。
このアプローチの背後にある重要なアイデアは、制約付きデコードを通じて、より小さな言語モデルの創造力を高めると同時に、ユーザ指定のコントロールと柔軟性も可能にすることです。
実験の結果,GPT3.5 175Bと競合する2桁の大小モデルであるGPT3.5 175Bに対して,GPT2-XLによる手法は従来手法よりも優れていた。
関連論文リスト
- Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing
Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。
広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。
本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文 参考訳(メタデータ) (2024-01-27T08:09:33Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language
Models Denoising [4.924903495092775]
大きな言語モデル(LLM)は、人間の文章を忠実に模倣するテキストを作成し、潜在的に誤用につながる可能性がある。
本稿では,機械生成テキストと人文テキストを区別する効率的な分類器であるAuthentiGPTを提案する。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示した。
論文 参考訳(メタデータ) (2023-11-13T19:36:54Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Towards Imperceptible Document Manipulations against Neural Ranking
Models [13.777462017782659]
本稿では,Imberceptible DocumEnt Manipulation (IDEM) というフレームワークを提案する。
IDEMは、BARTのような確立された生成言語モデルに、容易に検出できるエラーを発生させることなく、接続文を生成するよう指示する。
対象文書の流速と正しさを保ちながら, IDEM が強いベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2023-05-03T02:09:29Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Improving Authorship Verification using Linguistic Divergence [6.673132899229721]
事前学習した深層言語モデルを活用したオーサシップ検証タスクに対する教師なしソリューションを提案します。
提案するメトリクスは,事前学習した言語モデルと比較した2人の著者間の差異の尺度である。
論文 参考訳(メタデータ) (2021-03-12T03:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。