論文の概要: BN-AuthProf: Benchmarking Machine Learning for Bangla Author Profiling on Social Media Texts
- arxiv url: http://arxiv.org/abs/2412.02058v1
- Date: Tue, 03 Dec 2024 00:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:42.775387
- Title: BN-AuthProf: Benchmarking Machine Learning for Bangla Author Profiling on Social Media Texts
- Title(参考訳): BN-AuthProf: ソーシャルメディアテキストによるBangla作者プロファイリングのためのベンチマーク機械学習
- Authors: Raisa Tasnim, Mehanaz Chowdhury, Md Ataur Rahman,
- Abstract要約: 本稿では,ソーシャルメディア上での執筆スタイルに基づいて,匿名作者の貴重な洞察を抽出することを目的とする。
データセットは300人の著者による30,131のソーシャルメディア投稿で構成され、年齢と性別によってラベル付けされている。
データセットを評価するために、様々な古典的な機械学習とディープラーニング技術が採用された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Author profiling, the analysis of texts to uncover attributes such as gender and age of the author, has become essential with the widespread use of social media platforms. This paper focuses on author profiling in the Bangla language, aiming to extract valuable insights about anonymous authors based on their writing style on social media. The primary objective is to introduce and benchmark the performance of machine learning approaches on a newly created Bangla Author Profiling dataset, BN-AuthProf. The dataset comprises 30,131 social media posts from 300 authors, labeled by their age and gender. Authors' identities and sensitive information were anonymized to ensure privacy. Various classical machine learning and deep learning techniques were employed to evaluate the dataset. For gender classification, the best accuracy achieved was 80% using Support Vector Machine (SVM), while a Multinomial Naive Bayes (MNB) classifier achieved the best F1 score of 0.756. For age classification, MNB attained a maximum accuracy score of 91% with an F1 score of 0.905. This research highlights the effectiveness of machine learning in gender and age classification for Bangla author profiling, with practical implications spanning marketing, security, forensic linguistics, education, and criminal investigations, considering privacy and biases.
- Abstract(参考訳): 著者の性別や年齢などの属性を明らかにするためのテキスト分析である著者プロファイルは、ソーシャルメディアプラットフォームの普及に欠かせないものとなっている。
本稿は,Bangla言語における著者のプロファイリングに着目し,ソーシャルメディア上での著作スタイルに基づく匿名著者の貴重な洞察を抽出することを目的とする。
主な目的は、新たに作成されたBangla Author Profilingデータセット、BN-AuthProfに機械学習アプローチのパフォーマンスを導入し、ベンチマークすることである。
データセットは300人の著者による30,131のソーシャルメディア投稿で構成され、年齢と性別によってラベル付けされている。
著者の身元と機密情報は、プライバシーを確保するために匿名化された。
データセットを評価するために、様々な古典的な機械学習とディープラーニング技術が採用された。
性別分類では、SVM(Support Vector Machine)が80%、MNB(Multinomial Naive Bayes)が0.756のF1スコアを獲得した。
年齢分類では,MNBが91%,F1が0.905であった。
本研究は, マーケティング, セキュリティ, 法医学的言語学, 教育, 犯罪調査を対象とし, プライバシと偏見を考慮し, 性別と年齢分類における機械学習の有効性を強調した。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models [0.13980986259786224]
本稿では、アラビアのソーシャルメディアコンテンツにおける説得的手法の同定に焦点をあてた総合的な実証的研究について述べる。
我々は、プレトレーニング言語モデル(PLM)を利用し、ArAlEvalデータセットを活用する。
本研究では,PLMの力を活用した3つの学習手法について検討した。
論文 参考訳(メタデータ) (2024-05-21T15:55:09Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts [0.0]
我々は,紀元前300年から900年までの約2500の文からなる,性意味論を含む新しいコーパスを紹介した。
我々は,様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベースの検索を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-09-25T09:21:25Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Text2Gender: A Deep Learning Architecture for Analysis of Blogger's Age
and Gender [0.0]
本稿では,ブロガーの年齢と性別を予測するため,BERTに基づく分類手法を提案する。
年齢予測の精度は84.2%、性別予測の精度は86.32%である。
論文 参考訳(メタデータ) (2023-05-15T13:26:50Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Text-independent writer identification using convolutional neural
network [8.526559246026162]
テキストに依存しない著者識別のためのエンドツーエンドのディープラーニング手法を提案する。
我々の手法は作家を分類するために91.81%以上の精度を達成した。
論文 参考訳(メタデータ) (2020-09-10T14:18:03Z) - Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文 参考訳(メタデータ) (2020-03-24T19:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。