論文の概要: Are You Robert or RoBERTa? Deceiving Online Authorship Attribution
Models Using Neural Text Generators
- arxiv url: http://arxiv.org/abs/2203.09813v1
- Date: Fri, 18 Mar 2022 09:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 23:28:50.631274
- Title: Are You Robert or RoBERTa? Deceiving Online Authorship Attribution
Models Using Neural Text Generators
- Title(参考訳): ロバートかロベルタか?
ニューラルテキスト生成器を用いたオンラインオーサシップ属性モデルの騙し
- Authors: Keenan Jones, Jason R. C. Nurse, Shujun Li
- Abstract要約: GPT-2とXLM言語モデルは、既存のオンラインユーザー投稿を使ってテキストを生成するために使用される。
次に、これらAIベースのテキストジェネレータが、典型的AAモデルを欺くことができる程度に、著者スタイルを模倣できるかどうかを検討する。
本稿は、著者のスタイルを模倣できるオリジナルのオンライン投稿を生成するために、強力な自然言語モデルが現在持っている能力を強調した。
- 参考スコア(独自算出の注目度): 3.9533044769534444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a rise in the development of powerful pre-trained
natural language models, including GPT-2, Grover, and XLM. These models have
shown state-of-the-art capabilities towards a variety of different NLP tasks,
including question answering, content summarisation, and text generation.
Alongside this, there have been many studies focused on online authorship
attribution (AA). That is, the use of models to identify the authors of online
texts. Given the power of natural language models in generating convincing
texts, this paper examines the degree to which these language models can
generate texts capable of deceiving online AA models. Experimenting with both
blog and Twitter data, we utilise GPT-2 language models to generate texts using
the existing posts of online users. We then examine whether these AI-based text
generators are capable of mimicking authorial style to such a degree that they
can deceive typical AA models. From this, we find that current AI-based text
generators are able to successfully mimic authorship, showing capabilities
towards this on both datasets. Our findings, in turn, highlight the current
capacity of powerful natural language models to generate original online posts
capable of mimicking authorial style sufficiently to deceive popular AA
methods; a key finding given the proposed role of AA in real world applications
such as spam-detection and forensic investigation.
- Abstract(参考訳): 近年,gpt-2,grover,xlmなど,事前学習された強力な自然言語モデルの開発が進んでいる。
これらのモデルは、質問応答、コンテンツ要約、テキスト生成など、さまざまなNLPタスクに対する最先端の機能を示している。
これに加えて、オンライン著者帰属(AA)に焦点を当てた研究が数多く行われている。
つまり、オンラインテキストの著者を特定するためにモデルを使用すること。
本稿では, 自然言語モデルによる説得力のあるテキスト生成のパワーを考慮し, オンラインAAモデルを認識可能なテキスト生成の程度について検討する。
ブログデータとTwitterデータの両方を用いて、GPT-2言語モデルを用いて、既存のオンラインユーザー投稿を用いてテキストを生成する。
次に、これらAIベースのテキストジェネレータが、典型的AAモデルを欺くことができる程度に、著者スタイルを模倣できるかどうかを検討する。
そこから、現在のAIベースのテキストジェネレータは、著者の模倣を成功させることができ、両方のデータセットでこれを実現する能力を示す。
本研究は,AA手法を騙すのに十分な著者スタイルを模倣できるオリジナルのオンライン投稿を生成するために,強力な自然言語モデルの現在能力を強調し,スパム検出や法医学的調査などの実世界の応用において,AAの役割が提案されていることを示唆する重要な発見である。
関連論文リスト
- Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models [38.76912842622624]
プレトレーニング言語モデル(PLM)は、様々な自然言語生成(NLG)タスクにおいて印象的な結果を示している。
本研究では, PLMが生成するテキストの独創性を高めることを目的とした, 独特な「自己プラギアリズム」コントラスト的復号戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T19:17:00Z) - AI Content Self-Detection for Transformer-based Large Language Models [0.0]
本稿では、直接起点検出の概念を導入し、生成型AIシステムが出力を認識し、人文テキストと区別できるかどうかを評価する。
GoogleのBardモデルは、精度94%の自己検出の最大の能力を示し、OpenAIのChatGPTは83%である。
論文 参考訳(メタデータ) (2023-12-28T10:08:57Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。
本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。
AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文 参考訳(メタデータ) (2023-09-14T14:41:46Z) - BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained
Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。
テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文 参考訳(メタデータ) (2023-07-01T15:10:01Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - ChatGPT is not all you need. A State of the Art Review of large
Generative AI models [0.0]
この研究は、生成AIによって影響を受ける主要なモデルを簡潔に記述し、最近出版された主要な生成モデルの分類を提供する試みである。
論文 参考訳(メタデータ) (2023-01-11T15:48:36Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets [6.18447297698017]
本稿では、アラビア語の文が人間が書いたか、ボットが自動生成したかを検出できるトランスファー学習に基づくモデルを提案する。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
私たちの知る限り、この研究はARABERTとGPT2を組み合わせ、アラビア語の自動生成テキストを検出し、分類した最初の研究です。
論文 参考訳(メタデータ) (2021-01-22T21:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。