論文の概要: Writer Identification Using Microblogging Texts for Social Media
Forensics
- arxiv url: http://arxiv.org/abs/2008.01533v2
- Date: Sat, 6 Mar 2021 02:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:58:02.408678
- Title: Writer Identification Using Microblogging Texts for Social Media
Forensics
- Title(参考訳): マイクロブロッギングテキストを用いたソーシャルメディア鑑定のための文字識別
- Authors: Fernando Alonso-Fernandez, Nicole Mariah Sharon Belvisi, Kevin
Hernandez-Diaz, Naveed Muhammad, Josef Bigun
- Abstract要約: 私たちは、文学的分析に広く使われている人気のあるスタイル的特徴と、URL、ハッシュタグ、返信、引用などの特定のTwitter機能を評価します。
我々は、様々なサイズの著者集合と、著者毎のトレーニング/テストテキストの量をテストする。
- 参考スコア(独自算出の注目度): 53.180678723280145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing authorship of online texts is fundamental to combat cybercrimes.
Unfortunately, text length is limited on some platforms, making the challenge
harder. We aim at identifying the authorship of Twitter messages limited to 140
characters. We evaluate popular stylometric features, widely used in literary
analysis, and specific Twitter features like URLs, hashtags, replies or quotes.
We use two databases with 93 and 3957 authors, respectively. We test varying
sized author sets and varying amounts of training/test texts per author.
Performance is further improved by feature combination via automatic selection.
With a large number of training Tweets (>500), a good accuracy (Rank-5>80%) is
achievable with only a few dozens of test Tweets, even with several thousands
of authors. With smaller sample sizes (10-20 training Tweets), the search space
can be diminished by 9-15% while keeping a high chance that the correct author
is retrieved among the candidates. In such cases, automatic attribution can
provide significant time savings to experts in suspect search. For
completeness, we report verification results. With few training/test Tweets,
the EER is above 20-25%, which is reduced to < 15% if hundreds of training
Tweets are available. We also quantify the computational complexity and time
permanence of the employed features.
- Abstract(参考訳): オンラインテキストのオーサシップを確立することは、サイバー犯罪と戦うための基本である。
残念なことに、一部のプラットフォームではテキストの長さが制限されているため、難しい。
我々は140文字に制限されたTwitterメッセージの作者を特定することを目指している。
文学的分析や、url、ハッシュタグ、返信、引用などの特定のtwitter機能で広く使われている一般的なスタイル特徴を評価した。
私たちはそれぞれ93と3957の著者を持つ2つのデータベースを使用します。
さまざまなサイズの著者セットと、著者ごとのトレーニング/テストテキストをテストします。
自動選択による機能組み合わせにより、パフォーマンスはさらに向上する。
大量のトレーニングツイート(>500)では、優れた精度(ランク-5>80%)は数十のテストツイートで達成可能であり、数千の著者でも実現可能だ。
サンプルサイズ(10~20のトレーニングツイート)が小さくなると、検索スペースは9~15%減少し、候補の中から正しい著者が検索される可能性が高い。
このような場合、自動帰属は被疑者検索の専門家に多大な時間を節約できる。
完全性のため、検証結果を報告する。
トレーニング/テストのツイートが少ないため、EERは20-25%を超え、数百のトレーニングツイートが利用可能であれば15%に削減される。
また、使用する特徴の計算複雑性と時間永続性を定量化する。
関連論文リスト
- Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - Text-independent writer identification using convolutional neural
network [8.526559246026162]
テキストに依存しない著者識別のためのエンドツーエンドのディープラーニング手法を提案する。
我々の手法は作家を分類するために91.81%以上の精度を達成した。
論文 参考訳(メタデータ) (2020-09-10T14:18:03Z) - A Few Topical Tweets are Enough for Effective User-Level Stance
Detection [8.118808561953514]
我々は2つのアプローチを用いて声帯Twitterユーザーのスタンス検出に取り組む。
第1のアプローチでは、コンテキスト化埋め込みを用いてツイートを表現することで、ユーザレベルのスタンス検出を改善する。
第2のアプローチでは、あるユーザのつぶやきをTwitterのタイムラインのつぶやきを使って拡張し、ユーザを教師なしで分類する。
論文 参考訳(メタデータ) (2020-04-07T15:35:55Z) - Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文 参考訳(メタデータ) (2020-03-24T19:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。