論文の概要: TopRoBERTa: Topology-Aware Authorship Attribution of Deepfake Texts
- arxiv url: http://arxiv.org/abs/2309.12934v1
- Date: Fri, 22 Sep 2023 15:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 14:12:34.599534
- Title: TopRoBERTa: Topology-Aware Authorship Attribution of Deepfake Texts
- Title(参考訳): toproberta: トポロジーを意識したdeepfakeテキストの著者シップ
- Authors: Adaku Uchendu, Thai Le, Dongwon Lee
- Abstract要約: 大規模言語モデル(LLM)は、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成を可能にした。
悪意のある意図を持つユーザは、これらのオープンソースのLLMを使って、有害なテキストや誤報を大規模に生成することができる。
textbfTopRoBERTa は,ディープフェイクテキストのより言語的なパターンをキャプチャすることで,既存の AA ソリューションを改善する。
- 参考スコア(独自算出の注目度): 15.965625044879117
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have enabled the generation
of open-ended high-quality texts, that are non-trivial to distinguish from
human-written texts. We refer to such LLM-generated texts as \emph{deepfake
texts}. There are currently over 11K text generation models in the huggingface
model repo. As such, users with malicious intent can easily use these
open-sourced LLMs to generate harmful texts and misinformation at scale. To
mitigate this problem, a computational method to determine if a given text is a
deepfake text or not is desired--i.e., Turing Test (TT). In particular, in this
work, we investigate the more general version of the problem, known as
\emph{Authorship Attribution (AA)}, in a multi-class setting--i.e., not only
determining if a given text is a deepfake text or not but also being able to
pinpoint which LLM is the author. We propose \textbf{TopRoBERTa} to improve
existing AA solutions by capturing more linguistic patterns in deepfake texts
by including a Topological Data Analysis (TDA) layer in the RoBERTa model. We
show the benefits of having a TDA layer when dealing with noisy, imbalanced,
and heterogeneous datasets, by extracting TDA features from the reshaped
$pooled\_output$ of RoBERTa as input. We use RoBERTa to capture contextual
representations (i.e., semantic and syntactic linguistic features), while using
TDA to capture the shape and structure of data (i.e., linguistic structures).
Finally, \textbf{TopRoBERTa}, outperforms the vanilla RoBERTa in 2/3 datasets,
achieving up to 7\% increase in Macro F1 score.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
このような LLM 生成テキストを \emph{deepfake texts} と呼ぶ。
hugingfaceモデルリポジトリには、現在1k以上のテキスト生成モデルがある。
そのため、悪意のある意図を持ったユーザは、これらのオープンソース LLM を利用して、有害なテキストや誤報を大規模に生成することができる。
この問題を緩和するため、あるテキストがディープフェイクテキストであるか否かを判定する計算手法、すなわちチューリングテスト(TT)が望まれる。
特に,本研究では,テキストがディープフェイクテキストであるか否かを判断するだけでなく,どの LLM が著者であるかを特定できる多クラス設定において,この問題のより一般的なバージョンである 'emph{Authorship Attribution (AA)} について検討する。
我々は,RoBERTaモデルにトポロジカルデータ解析(TDA)層を含むディープフェイクテキストのより言語的なパターンを取り込み,既存のAAソリューションを改善するために,textbf{TopRoBERTa}を提案する。
入力としてRoBERTaの$pooled\_output$からTDA特徴を抽出することにより、ノイズ、不均衡、異種データセットを扱う際にTDA層を持つことの利点を示す。
我々はRoBERTaを用いて文脈表現(意味的・統語的特徴)をキャプチャし、TDAを用いてデータの形状と構造(言語構造)をキャプチャする。
最後に、 \textbf{TopRoBERTa}は、2/3データセットでバニラRoBERTaを上回り、マクロF1スコアの最大7%上昇を達成する。
関連論文リスト
- Detecting AI-Generated Texts in Cross-Domains [3.2245324254437846]
ベースラインモデルとして,RoBERTa-Rankerというランキング分類器を訓練する。
次に、新しいドメインで少量のラベル付きデータしか必要としないRoBERTa-Rankerを微調整する手法を提案する。
実験により、この微調整されたドメイン認識モデルは、一般的なTectGPTとGPTZeroより優れていることが示された。
論文 参考訳(メタデータ) (2024-10-17T18:43:30Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - Text Embeddings Reveal (Almost) As Much As Text [86.5822042193058]
テキストの埋め込みに代表される全文を再構築し,テキストの埋め込みに関する問題点を考察する。
埋め込みに条件付けされたna"iveモデルでは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドでは、正確に32text-token$のテキスト入力を92%の費用で回収できることがわかった。
論文 参考訳(メタデータ) (2023-10-10T17:39:03Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。