論文の概要: Celebrity Profiling on Short Urdu Text using Twitter Followers' Feed
- arxiv url: http://arxiv.org/abs/2510.11739v1
- Date: Fri, 10 Oct 2025 19:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.021923
- Title: Celebrity Profiling on Short Urdu Text using Twitter Followers' Feed
- Title(参考訳): Twitter Followers' Feed を用いた短いウルドゥー語文のセレブリティ・プロファイリング
- Authors: Muhammad Hamza, Rizwan Jafar,
- Abstract要約: 本研究は,ウルドゥー語における有名人のプロファイリング問題に対して,現代の機械学習と深層学習技術を適用した。
亜大陸の有名人のフォロワーからの短いウルドゥー語ツイートのデータセットを収集し、前処理した。
cRankが0.65、精度が0.65で性別予測が達成され、その後、年齢、職業、名声予測の適度な結果が得られた。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media has become an essential part of the digital age, serving as a platform for communication, interaction, and information sharing. Celebrities are among the most active users and often reveal aspects of their personal and professional lives through online posts. Platforms such as Twitter provide an opportunity to analyze language and behavior for understanding demographic and social patterns. Since followers frequently share linguistic traits and interests with the celebrities they follow, textual data from followers can be used to predict celebrity demographics. However, most existing research in this field has focused on English and other high-resource languages, leaving Urdu largely unexplored. This study applies modern machine learning and deep learning techniques to the problem of celebrity profiling in Urdu. A dataset of short Urdu tweets from followers of subcontinent celebrities was collected and preprocessed. Multiple algorithms were trained and compared, including Logistic Regression, Support Vector Machines, Random Forests, Convolutional Neural Networks, and Long Short-Term Memory networks. The models were evaluated using accuracy, precision, recall, F1-score, and cumulative rank (cRank). The best performance was achieved for gender prediction with a cRank of 0.65 and an accuracy of 0.65, followed by moderate results for age, profession, and fame prediction. These results demonstrate that follower-based linguistic features can be effectively leveraged using machine learning and neural approaches for demographic prediction in Urdu, a low-resource language.
- Abstract(参考訳): ソーシャルメディアはデジタル時代の不可欠な部分となり、コミュニケーション、対話、情報共有のプラットフォームとして機能している。
セレブは最もアクティブなユーザーであり、オンライン投稿を通じて個人やプロフェッショナルの生活の側面を明らかにすることが多い。
Twitterのようなプラットフォームは、人口統計や社会パターンを理解するために言語や行動を分析する機会を提供する。
フォロワーは言語的特徴や関心をフォローするセレブと共有することが多いため、フォロワーからのテキストデータは有名人の人口予測に利用することができる。
しかし、この分野の既存の研究のほとんどは英語や他の高リソース言語に焦点を合わせており、ウルドゥー語は未発見のままである。
本研究は,ウルドゥー語における有名人のプロファイリング問題に対して,現代の機械学習と深層学習技術を適用した。
亜大陸の有名人のフォロワーからの短いウルドゥー語ツイートのデータセットを収集し、前処理した。
Logistic Regression、Support Vector Machines、Random Forests、Convolutional Neural Networks、Long Short-Term Memory Networkなど、複数のアルゴリズムが訓練され、比較された。
モデルは精度,精度,リコール,F1スコア,累積ランク(cRank)を用いて評価した。
cRankが0.65、精度が0.65で性別予測が達成され、その後、年齢、職業、名声予測の適度な結果が得られた。
これらの結果は、低リソース言語であるUrduにおける人口統計予測に機械学習とニューラルネットワークを用いて、追従者に基づく言語特徴を効果的に活用できることを実証した。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Towards Proactively Forecasting Sentence-Specific Information Popularity
within Online News Documents [13.537665342333488]
本稿では,オンラインニュース文書中の文の人気を積極的に予測するタスクについて紹介する。
モデルをトレーニングするために、我々はInfoPopをキュレートする。
本稿では,文のサリエンス予測を補助課題とする転帰学習手法を提案する。
論文 参考訳(メタデータ) (2022-12-31T08:40:08Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - Urdu Speech and Text Based Sentiment Analyzer [1.4630964945453113]
本研究は,ユーザ評価に基づく新しいマルチクラスUrduデータセットを提案する。
提案したデータセットには1万のレビューが含まれており、人間の専門家によって慎重に2つのカテゴリに分類されている。
Naivebayes、Stanza、Textblob、Vader、Frairを含む5種類のレキシコンおよびルールベースのアルゴリズムが採用され、実験の結果、Flairが70%の精度で他のテストアルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2022-07-19T10:11:22Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - TweetBERT: A Pretrained Language Representation Model for Twitter Text
Analysis [0.0]
我々は、何百万ものツイートで事前訓練されたドメイン固有言語プレゼンテーションモデルである2つのTweetBERTモデルを紹介した。
TweetBERTモデルは、Twitterのテキストマイニングタスクにおける従来のBERTモデルよりも、各Twitterデータセットで7%以上優れています。
論文 参考訳(メタデータ) (2020-10-17T00:45:02Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。