論文の概要: Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features
- arxiv url: http://arxiv.org/abs/2003.11545v1
- Date: Tue, 24 Mar 2020 19:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:10:08.759660
- Title: Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features
- Title(参考訳): N-Gramsとスティロメトリ特徴を用いたマイクロブログテキストの法定オーサリング解析
- Authors: Nicole Mariah Sharon Belvisi, Naveed Muhammad, Fernando
Alonso-Fernandez
- Abstract要約: この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
- 参考スコア(独自算出の注目度): 63.48764893706088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, messages and text posted on the Internet are used in
criminal investigations. Unfortunately, the authorship of many of them remains
unknown. In some channels, the problem of establishing authorship may be even
harder, since the length of digital texts is limited to a certain number of
characters. In this work, we aim at identifying authors of tweet messages,
which are limited to 280 characters. We evaluate popular features employed
traditionally in authorship attribution which capture properties of the writing
style at different levels. We use for our experiments a self-captured database
of 40 users, with 120 to 200 tweets per user. Results using this small set are
promising, with the different features providing a classification accuracy
between 92% and 98.5%. These results are competitive in comparison to existing
studies which employ short texts such as tweets or SMS.
- Abstract(参考訳): 近年、インターネットに投稿されたメッセージやテキストは刑事捜査に利用されている。
しかし、その作者は不明な点が多い。
一部のチャンネルでは、デジタルテキストの長さが一定の文字数に限定されているため、著者を確立する問題はさらに困難である。
本研究では,280文字に制限されたツイートメッセージの作者を特定することを目的とする。
著者の属性に伝統的に用いられてきた人気機能の評価を行い,異なるレベルの筆記スタイルの特性を捉えた。
弊社の実験では、40名のユーザによる、120から200のツイートを自撮りでデータベース化した。
この小さなセットを使った結果は有望であり、異なる特徴により分類精度は92%から98.5%である。
これらの結果は、ツイートやSMSなどの短いテキストを使用する既存の研究と比較すると、競合する。
関連論文リスト
- Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - BERT-based Authorship Attribution on the Romanian Dataset called ROST [0.0]
我々はルーマニア語で書かれたテキストの著者数を検出するためにモデルを使用する。
使用するデータセットはバランスが悪く、すなわち著者1人当たりのテキスト数に大きな違いがある。
結果は予想より優れており、マクロ精度は87%を超えることもある。
論文 参考訳(メタデータ) (2023-01-29T17:37:29Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。
本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。
その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文 参考訳(メタデータ) (2022-01-25T23:04:10Z) - DeepStyle: User Style Embedding for Authorship Attribution of Short
Texts [57.503904346336384]
オーサシップアトリビューション(AA)は、多くのアプリケーションで重要で広く研究されている研究トピックです。
近年の研究では、深層学習がAAタスクの精度を大幅に向上させることが示されている。
本稿では,ユーザの健全な書き込みスタイルの表現を学習する新しい埋め込み型フレームワークであるDeepStyleを提案する。
論文 参考訳(メタデータ) (2021-03-14T15:56:37Z) - Writer Identification Using Microblogging Texts for Social Media
Forensics [53.180678723280145]
私たちは、文学的分析に広く使われている人気のあるスタイル的特徴と、URL、ハッシュタグ、返信、引用などの特定のTwitter機能を評価します。
我々は、様々なサイズの著者集合と、著者毎のトレーニング/テストテキストの量をテストする。
論文 参考訳(メタデータ) (2020-07-31T00:23:18Z) - A Few Topical Tweets are Enough for Effective User-Level Stance
Detection [8.118808561953514]
我々は2つのアプローチを用いて声帯Twitterユーザーのスタンス検出に取り組む。
第1のアプローチでは、コンテキスト化埋め込みを用いてツイートを表現することで、ユーザレベルのスタンス検出を改善する。
第2のアプローチでは、あるユーザのつぶやきをTwitterのタイムラインのつぶやきを使って拡張し、ユーザを教師なしで分類する。
論文 参考訳(メタデータ) (2020-04-07T15:35:55Z) - Investigating Classification Techniques with Feature Selection For
Intention Mining From Twitter Feed [0.0]
マイクロブログサービスのTwitterには2億人以上の登録ユーザーがいて、1日に6500万以上の投稿をやりとりしている。
ほとんどのツイートは非公式に書かれ、しばしばスラング語で書かれている。
本稿では,Twitterフィードからユーザの意図を抽出する機能の選択の問題について検討する。
論文 参考訳(メタデータ) (2020-01-22T11:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。