Fugu-MT 論文翻訳(概要): TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles

論文の概要: TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles

arxiv url: http://arxiv.org/abs/2309.12934v2
Date: Tue, 9 Apr 2024 11:27:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 20:16:36.499227
Title: TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles
Title（参考訳）: TOPFORMER: 多様な文体を持つディープフェイクテキストのトポロジーを考慮したオーサリング属性
Authors: Adaku Uchendu, Thai Le, Dongwon Lee,
Abstract要約: 近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
参考スコア（独自算出の注目度）: 14.205559299967423
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advances in Large Language Models (LLMs) have enabled the generation of open-ended high-quality texts, that are non-trivial to distinguish from human-written texts. We refer to such LLM-generated texts as deepfake texts. There are currently over 72K text generation models in the huggingface model repo. As such, users with malicious intent can easily use these open-sourced LLMs to generate harmful texts and dis/misinformation at scale. To mitigate this problem, a computational method to determine if a given text is a deepfake text or not is desired--i.e., Turing Test (TT). In particular, in this work, we investigate the more general version of the problem, known as Authorship Attribution (AA), in a multi-class setting--i.e., not only determining if a given text is a deepfake text or not but also being able to pinpoint which LLM is the author. We propose TopFormer to improve existing AA solutions by capturing more linguistic patterns in deepfake texts by including a Topological Data Analysis (TDA) layer in the Transformer-based model. We show the benefits of having a TDA layer when dealing with imbalanced, and multi-style datasets, by extracting TDA features from the reshaped $pooled\_output$ of our backbone as input. This Transformer-based model captures contextual representations (i.e., semantic and syntactic linguistic features), while TDA captures the shape and structure of data (i.e., linguistic structures). Finally, TopFormer, outperforms all baselines in all 3 datasets, achieving up to 7\% increase in Macro F1 score.
Abstract（参考訳）: 近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。 LLM生成したテキストをディープフェイクテキストと呼ぶ。現在、ハグフェイスモデルリポジトリには72K以上のテキスト生成モデルがある。そのため、悪意のある意図を持ったユーザは、これらのオープンソース LLM を使って有害なテキストや誤報を大規模に生成することができる。この問題を緩和するため、あるテキストがディープフェイクテキストであるか否かを判定する計算手法、すなわちチューリングテスト(TT)が望まれる。特に,本論文では,著者属性 (AA) と呼ばれる問題のより一般的なバージョン,すなわち,あるテキストがディープフェイクテキストであるか否かを判断するだけでなく,どの LLM が著者であるかを特定できる多クラス設定について検討する。そこで我々は,TopFormer を用いたモデルにトポロジカルデータ解析 (TDA) 層を含むディープフェイクテキストの言語パターンを抽出し,既存の AA ソリューションを改善するために,TopFormer を提案する。入力としてバックボーンの$pooled\_output$からTDA特徴を抽出することにより、不均衡なデータセットやマルチスタイルデータセットを扱う際に、TDA層を持つことの利点を示す。このトランスフォーマーベースのモデルは文脈表現(意味的特徴と統語的特徴)をキャプチャし、TDAはデータの形状と構造(言語構造)をキャプチャする。最後に、TopFormerは、すべての3つのデータセットのベースラインを上回り、マクロF1スコアの最大7倍のアップを達成している。

関連論文リスト

Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Detecting AI-Generated Texts in Cross-Domains [3.2245324254437846]
ベースラインモデルとして,RoBERTa-Rankerというランキング分類器を訓練する。次に、新しいドメインで少量のラベル付きデータしか必要としないRoBERTa-Rankerを微調整する手法を提案する。実験により、この微調整されたドメイン認識モデルは、一般的なTectGPTとGPTZeroより優れていることが示された。
論文参考訳（メタデータ） (2024-10-17T18:43:30Z)
A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding [30.754200683466788]
文書理解のための大規模言語モデル(LayTextLLM)にインターリービングレイアウトとテキストを導入する。 LayTextLLMは、各バウンディングボックスを単一の埋め込みに投影し、テキストでインターリーブする。総合的なベンチマーク評価ではLayTextLLMが大幅に改善され、KIEタスクが15.2%、VQAタスクが10.7%増加した。
論文参考訳（メタデータ） (2024-07-02T06:29:05Z)
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-07T12:57:01Z)
TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文参考訳（メタデータ） (2023-11-28T04:02:40Z)
AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。 AnyTextは複数の言語で文字を書くことができます。我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文参考訳（メタデータ） (2023-11-06T12:10:43Z)
Text Embeddings Reveal (Almost) As Much As Text [86.5822042193058]
テキストの埋め込みに代表される全文を再構築し,テキストの埋め込みに関する問題点を考察する。埋め込みに条件付けされたna"iveモデルでは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドでは、正確に32text-token$のテキスト入力を92%の費用で回収できることがわかった。
論文参考訳（メタデータ） (2023-10-10T17:39:03Z)
Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-07-13T05:03:26Z)
A Benchmark Corpus for the Detection of Automatically Generated Text in Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。 BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文参考訳（メタデータ） (2022-02-04T08:16:56Z)
How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (2021-11-18T04:07:09Z)
Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。 TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文参考訳（メタデータ） (2020-11-27T22:50:09Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)
POINTER: Constrained Progressive Text Generation via Insertion-based Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文参考訳（メタデータ） (2020-05-01T18:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。