論文の概要: BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets
- arxiv url: http://arxiv.org/abs/2101.09345v1
- Date: Fri, 22 Jan 2021 21:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 18:26:00.753497
- Title: BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets
- Title(参考訳): BERT変換を用いたアラビア語GPT2自動生成ツイートの検出
- Authors: Fouzi Harrag, Maria Debbah, Kareem Darwish, Ahmed Abdelali
- Abstract要約: 本稿では、アラビア語の文が人間が書いたか、ボットが自動生成したかを検出できるトランスファー学習に基づくモデルを提案する。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
私たちの知る限り、この研究はARABERTとGPT2を組み合わせ、アラビア語の自動生成テキストを検出し、分類した最初の研究です。
- 参考スコア(独自算出の注目度): 6.18447297698017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the last two decades, we have progressively turned to the Internet and
social media to find news, entertain conversations and share opinion. Recently,
OpenAI has developed a ma-chine learning system called GPT-2 for Generative
Pre-trained Transformer-2, which can pro-duce deepfake texts. It can generate
blocks of text based on brief writing prompts that look like they were written
by humans, facilitating the spread false or auto-generated text. In line with
this progress, and in order to counteract potential dangers, several methods
have been pro-posed for detecting text written by these language models. In
this paper, we propose a transfer learning based model that will be able to
detect if an Arabic sentence is written by humans or automatically generated by
bots. Our dataset is based on tweets from a previous work, which we have
crawled and extended using the Twitter API. We used GPT2-Small-Arabic to
generate fake Arabic Sentences. For evaluation, we compared different recurrent
neural network (RNN) word embeddings based baseline models, namely: LSTM,
BI-LSTM, GRU and BI-GRU, with a transformer-based model. Our new
transfer-learning model has obtained an accuracy up to 98%. To the best of our
knowledge, this work is the first study where ARABERT and GPT2 were combined to
detect and classify the Arabic auto-generated texts.
- Abstract(参考訳): 過去20年間、私たちは徐々にインターネットやソーシャルメディアに目を向け、ニュースを見つけ、会話を楽しませ、意見を共有してきた。
最近,OpenAI は GPT-2 for Generative Pre-trained Transformer-2 というマシーン学習システムを開発した。
簡単な文章のプロンプトに基づいてテキストのブロックを生成し、人間が書いたように見え、偽造や自動生成のテキストの拡散を容易にする。
この進歩と潜在的な危険に対処するために、これらの言語モデルによって書かれたテキストを検出するいくつかの方法が提案されている。
本稿では,アラビア語文が人間によって書かれたり,ボットによって自動生成されたりするかどうかを検知できる移動学習モデルを提案する。
データセットは、Twitter APIを使ってクロールして拡張した以前の作業からのつぶやきに基づいています。
gpt2-small-arabicを用いて偽アラビア語文を作成した。
評価のために、異なるリカレントニューラルネットワーク(RNN)ワード埋め込みベースのベースラインモデル、すなわちLSTM、BI-LSTM、GRU、BI-GRUを比較した。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
我々の知る限り、この研究は、アラビア語の自動生成テキストを検出し分類するためにARABERTとGPT2を組み合わせた最初の研究である。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Are You Robert or RoBERTa? Deceiving Online Authorship Attribution
Models Using Neural Text Generators [3.9533044769534444]
GPT-2とXLM言語モデルは、既存のオンラインユーザー投稿を使ってテキストを生成するために使用される。
次に、これらAIベースのテキストジェネレータが、典型的AAモデルを欺くことができる程度に、著者スタイルを模倣できるかどうかを検討する。
本稿は、著者のスタイルを模倣できるオリジナルのオンライン投稿を生成するために、強力な自然言語モデルが現在持っている能力を強調した。
論文 参考訳(メタデータ) (2022-03-18T09:19:14Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Offensive Language and Hate Speech Detection with Deep Learning and
Transfer Learning [1.77356577919977]
我々は、ツイートを自動的に3つのクラスに分類するアプローチを提案する。
我々は、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールを作成する。
論文 参考訳(メタデータ) (2021-08-06T20:59:47Z) - AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。
当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。
テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文 参考訳(メタデータ) (2020-12-31T09:48:05Z) - Machine Generation and Detection of Arabic Manipulated and Fake News [8.014703200985084]
アラビア語で編集された(そしておそらく偽の)ニュースを自動的に生成する新しい手法を提案する。
提案手法は単純で,オンラインで豊富な真の物語と,音声タグ(POS)の一部にのみ依存する。
我々は、機械操作がテキストの正確性に与える影響に光を当てる人間のアノテーション研究を行う。
我々は、操作されたアラビアニュースを検知し、最先端の結果を得るための最初のモデルを開発する。
論文 参考訳(メタデータ) (2020-11-05T20:50:22Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。