論文の概要: TweepFake: about Detecting Deepfake Tweets
- arxiv url: http://arxiv.org/abs/2008.00036v2
- Date: Thu, 6 May 2021 16:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 05:54:56.521773
- Title: TweepFake: about Detecting Deepfake Tweets
- Title(参考訳): TweepFake:ディープフェイクツイートの検出
- Authors: Tiziano Fagni, Fabrizio Falchi, Margherita Gambini, Antonio Martella,
Maurizio Tesconi
- Abstract要約: ディープニューラルモデルは、コヒーレントで非自明で人間のようなテキストサンプルを生成することができる。
ソーシャルボットは、公開討論を汚染することを望んで、もっともらしいディープフェイクメッセージを書くことができる。
私たちは、本物のディープフェイクツイートの最初のデータセット、TweepFakeを収集します。
- 参考スコア(独自算出の注目度): 3.3482093430607254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advances in language modeling significantly improved the
generative capabilities of deep neural models: in 2019 OpenAI released GPT-2, a
pre-trained language model that can autonomously generate coherent, non-trivial
and human-like text samples. Since then, ever more powerful text generative
models have been developed. Adversaries can exploit these tremendous generative
capabilities to enhance social bots that will have the ability to write
plausible deepfake messages, hoping to contaminate public debate. To prevent
this, it is crucial to develop deepfake social media messages detection
systems. However, to the best of our knowledge no one has ever addressed the
detection of machine-generated texts on social networks like Twitter or
Facebook. With the aim of helping the research in this detection field, we
collected the first dataset of \real deepfake tweets, TweepFake. It is real in
the sense that each deepfake tweet was actually posted on Twitter. We collected
tweets from a total of 23 bots, imitating 17 human accounts. The bots are based
on various generation techniques, i.e., Markov Chains, RNN, RNN+Markov, LSTM,
GPT-2. We also randomly selected tweets from the humans imitated by the bots to
have an overall balanced dataset of 25,572 tweets (half human and half bots
generated). The dataset is publicly available on Kaggle. Lastly, we evaluated
13 deepfake text detection methods (based on various state-of-the-art
approaches) to both demonstrate the challenges that Tweepfake poses and create
a solid baseline of detection techniques. We hope that TweepFake can offer the
opportunity to tackle the deepfake detection on social media messages as well.
- Abstract(参考訳): 言語モデリングの最近の進歩は、ディープニューラルネットワークモデルの生成能力を著しく改善した。2019年にOpenAIは、コヒーレントで非自明で人間に似たテキストサンプルを自律的に生成できる、事前訓練された言語モデルであるGPT-2をリリースした。
それ以来、より強力なテキスト生成モデルが開発されている。
敵は、こうした膨大な生成能力を生かして、社会的ボットを強化し、公衆の議論を汚染したいと願って、もっともらしいディープフェイクメッセージを書けるようになる。
これを防ぐためには、ディープフェイクなソーシャルメディアメッセージ検出システムの開発が不可欠である。
しかし、私たちの知る限りでは、TwitterやFacebookのようなソーシャルネットワーク上の機械生成テキストの検出には、誰も対応していません。
この検出分野の研究を支援するため、私たちは \real deepfake ツイートの最初のデータセットである tweepfake を収集しました。
それぞれのディープフェイクツイートが実際にTwitterに投稿されたという意味では事実だ。
われわれは合計23のボットからツイートを集め、17人のアカウントを模倣した。
ボットは、Markov Chains、RNN、RNN+Markov、LSTM、GPT-2といった様々な世代技術に基づいている。
また、ボットによって模倣された人間のツイートをランダムに選択し、合計25,572ツイートのバランスの取れたデータセット(約半分の人間と半分のボット)を作成した。
データセットはKaggleで公開されている。
最後に,13のdeepfakeテキスト検出手法(様々な最先端手法に基づく)を評価し,tweepfakeが持つ課題を実証し,検出手法の確固たるベースラインを構築した。
TweepFakeが、ソーシャルメディアメッセージのディープフェイク検出に取り組む機会を得られることを期待している。
関連論文リスト
- My Brother Helps Me: Node Injection Based Adversarial Attack on Social Bot Detection [69.99192868521564]
Twitterのようなソーシャルプラットフォームは、数多くの不正なユーザーから包囲されている。
ソーシャルネットワークの構造のため、ほとんどの手法は攻撃を受けやすいグラフニューラルネットワーク(GNN)に基づいている。
本稿では,ボット検出モデルを欺いたノードインジェクションに基づく逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T03:09:48Z) - BotArtist: Generic approach for bot detection in Twitter via semi-automatic machine learning pipeline [47.61306219245444]
Twitterは、ボットや偽アカウントのターゲットとなり、偽情報や操作の拡散につながった。
本稿では,機械学習モデル開発に関連する課題に対処するために,セミオートマチック機械学習パイプライン(SAMLP)を提案する。
ユーザプロファイル機能に基づいたボット検出モデルBotArtistを開発した。
論文 参考訳(メタデータ) (2023-05-31T09:12:35Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Stylometric Detection of AI-Generated Text in Twitter Timelines [17.62006063931326]
Twitterのようなソーシャルメディアプラットフォームは、AIが生成した誤情報に非常に影響を受けやすい。
潜在的な脅威シナリオは、敵が信頼できるユーザアカウントをハイジャックし、自然言語生成器を組み込んで誤情報を生成する場合である。
本稿では,AI生成ツイートの検出を支援するために,テクスチャ信号を用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-07T07:26:09Z) - Machine Learning-based Automatic Annotation and Detection of COVID-19
Fake News [8.020736472947581]
新型コロナウイルス(COVID-19)は世界のあらゆる地域に影響を与えるが、感染の誤報はウイルスよりも速く移動した。
既存の作業は、拡散の触媒として働くボットの存在を無視する。
そこで本稿では,Twitterデータセット上で事実確認文をラベル付けする手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T13:55:59Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - BotSpot: Deep Learning Classification of Bot Accounts within Twitter [2.099922236065961]
Twitterのオープン化機能により、プログラムはTwitter APIを通じてTwitterアカウントを自動生成および制御できる。
ボットとして知られるこれらのアカウントは、ツイート、リツイート、フォロー、フォロー解除、他のアカウントへのダイレクトメッセージなどのアクションを自動的に実行する。
我々は,多層パーセプトロンニューラルネットワークとボットアカウントの9つの特徴を備えた,ディープラーニングを用いた新しいボット検出手法を提案する。
論文 参考訳(メタデータ) (2021-09-08T15:17:10Z) - BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets [6.18447297698017]
本稿では、アラビア語の文が人間が書いたか、ボットが自動生成したかを検出できるトランスファー学習に基づくモデルを提案する。
新しいトランスファーラーニングモデルは、最大98%の精度を得ました。
私たちの知る限り、この研究はARABERTとGPT2を組み合わせ、アラビア語の自動生成テキストを検出し、分類した最初の研究です。
論文 参考訳(メタデータ) (2021-01-22T21:50:38Z) - WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection [82.42495493102805]
我々は,インターネットから完全に収集された707のディープフェイクビデオから抽出された7,314の顔シーケンスからなる新しいデータセットWildDeepfakeを紹介した。
既存のWildDeepfakeデータセットと我々のWildDeepfakeデータセットのベースライン検出ネットワークを体系的に評価し、WildDeepfakeが実際により困難なデータセットであることを示す。
論文 参考訳(メタデータ) (2021-01-05T11:10:32Z) - Twitter Bot Detection Using Bidirectional Long Short-term Memory Neural
Networks and Word Embeddings [6.09170287691728]
本稿では,Twitterボットを人間アカウントと区別するために,単語埋め込みを用いたリカレントニューラルネットワークを開発した。
実験により,既存の最先端ボット検出システムと比較して,本手法が競争力を発揮することが示された。
論文 参考訳(メタデータ) (2020-02-03T17:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。