論文の概要: BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets
- arxiv url: http://arxiv.org/abs/2101.09345v1
- Date: Fri, 22 Jan 2021 21:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 18:26:00.753497
- Title: BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets
- Title(参考訳): BERT変換を用いたアラビア語GPT2自動生成ツイートの検出
- Authors: Fouzi Harrag, Maria Debbah, Kareem Darwish, Ahmed Abdelali
- Abstract要約: 本稿では、アラビア語の文が人間が書いたか、ボットが自動生成したかを検出できるトランスファー学習に基づくモデルを提案する。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
私たちの知る限り、この研究はARABERTとGPT2を組み合わせ、アラビア語の自動生成テキストを検出し、分類した最初の研究です。
- 参考スコア(独自算出の注目度): 6.18447297698017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the last two decades, we have progressively turned to the Internet and
social media to find news, entertain conversations and share opinion. Recently,
OpenAI has developed a ma-chine learning system called GPT-2 for Generative
Pre-trained Transformer-2, which can pro-duce deepfake texts. It can generate
blocks of text based on brief writing prompts that look like they were written
by humans, facilitating the spread false or auto-generated text. In line with
this progress, and in order to counteract potential dangers, several methods
have been pro-posed for detecting text written by these language models. In
this paper, we propose a transfer learning based model that will be able to
detect if an Arabic sentence is written by humans or automatically generated by
bots. Our dataset is based on tweets from a previous work, which we have
crawled and extended using the Twitter API. We used GPT2-Small-Arabic to
generate fake Arabic Sentences. For evaluation, we compared different recurrent
neural network (RNN) word embeddings based baseline models, namely: LSTM,
BI-LSTM, GRU and BI-GRU, with a transformer-based model. Our new
transfer-learning model has obtained an accuracy up to 98%. To the best of our
knowledge, this work is the first study where ARABERT and GPT2 were combined to
detect and classify the Arabic auto-generated texts.
- Abstract(参考訳): 過去20年間、私たちは徐々にインターネットやソーシャルメディアに目を向け、ニュースを見つけ、会話を楽しませ、意見を共有してきた。
最近,OpenAI は GPT-2 for Generative Pre-trained Transformer-2 というマシーン学習システムを開発した。
簡単な文章のプロンプトに基づいてテキストのブロックを生成し、人間が書いたように見え、偽造や自動生成のテキストの拡散を容易にする。
この進歩と潜在的な危険に対処するために、これらの言語モデルによって書かれたテキストを検出するいくつかの方法が提案されている。
本稿では,アラビア語文が人間によって書かれたり,ボットによって自動生成されたりするかどうかを検知できる移動学習モデルを提案する。
データセットは、Twitter APIを使ってクロールして拡張した以前の作業からのつぶやきに基づいています。
gpt2-small-arabicを用いて偽アラビア語文を作成した。
評価のために、異なるリカレントニューラルネットワーク(RNN)ワード埋め込みベースのベースラインモデル、すなわちLSTM、BI-LSTM、GRU、BI-GRUを比較した。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
我々の知る限り、この研究は、アラビア語の自動生成テキストを検出し分類するためにARABERTとGPT2を組み合わせた最初の研究である。
関連論文リスト
- GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Are You Robert or RoBERTa? Deceiving Online Authorship Attribution
Models Using Neural Text Generators [3.9533044769534444]
GPT-2とXLM言語モデルは、既存のオンラインユーザー投稿を使ってテキストを生成するために使用される。
次に、これらAIベースのテキストジェネレータが、典型的AAモデルを欺くことができる程度に、著者スタイルを模倣できるかどうかを検討する。
本稿は、著者のスタイルを模倣できるオリジナルのオンライン投稿を生成するために、強力な自然言語モデルが現在持っている能力を強調した。
論文 参考訳(メタデータ) (2022-03-18T09:19:14Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - AraT5: Text-to-Text Transformers for Arabic Language Understanding and
Generation [6.021269454707625]
アラビア語生成のための新しいベンチマーク(ARGEN)を導入する。
アラビア語固有のテキスト・トゥ・テキスト・トランスフォーマーベースの3つのモデルを事前学習し、2つのベンチマークで評価する。
我々の新しいモデルはmT5よりも大幅に優れており、アラビア語の理解に基づいて現在最先端のアラビア語 BERT ベースのモデルである MARBERT よりも優れている。
論文 参考訳(メタデータ) (2021-08-31T02:02:10Z) - Offensive Language and Hate Speech Detection with Deep Learning and
Transfer Learning [1.77356577919977]
我々は、ツイートを自動的に3つのクラスに分類するアプローチを提案する。
我々は、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールを作成する。
論文 参考訳(メタデータ) (2021-08-06T20:59:47Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。
当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。
テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文 参考訳(メタデータ) (2020-12-31T09:48:05Z) - Machine Generation and Detection of Arabic Manipulated and Fake News [8.014703200985084]
アラビア語で編集された(そしておそらく偽の)ニュースを自動的に生成する新しい手法を提案する。
提案手法は単純で,オンラインで豊富な真の物語と,音声タグ(POS)の一部にのみ依存する。
我々は、機械操作がテキストの正確性に与える影響に光を当てる人間のアノテーション研究を行う。
我々は、操作されたアラビアニュースを検知し、最先端の結果を得るための最初のモデルを開発する。
論文 参考訳(メタデータ) (2020-11-05T20:50:22Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。