論文の概要: A Deep Learning Approach to Language-independent Gender Prediction on Twitter
- arxiv url: http://arxiv.org/abs/2411.19733v1
- Date: Fri, 29 Nov 2024 14:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:45.991717
- Title: A Deep Learning Approach to Language-independent Gender Prediction on Twitter
- Title(参考訳): Twitterにおける言語に依存しないジェンダー予測への深層学習アプローチ
- Authors: Reyhaneh Hashempour, Barbara Plank, Aline Villavicencio, Renato Cordeiro de Amorim,
- Abstract要約: 本研究は,ユーザのつぶやきのテキストから抽出した言語に依存しない特徴に基づいて,Twitter利用者の性別を予測するための実験である。
実験は、ポルトガル語、フランス語、オランダ語、英語、ドイツ語、イタリア語の6カ国語で書かれたツイートを含むTwiStyデータセットのバージョンで実施された。
- 参考スコア(独自算出の注目度): 25.177698576477823
- License:
- Abstract: This work presents a set of experiments conducted to predict the gender of Twitter users based on language-independent features extracted from the text of the users' tweets. The experiments were performed on a version of TwiSty dataset including tweets written by the users of six different languages: Portuguese, French, Dutch, English, German, and Italian. Logistic regression (LR), and feed-forward neural networks (FFNN) with back-propagation were used to build models in two different settings: Inter-Lingual (IL) and Cross-Lingual (CL). In the IL setting, the training and testing were performed on the same language whereas in the CL, Italian and German datasets were set aside and only used as test sets and the rest were combined to compose training and development sets. In the IL, the highest accuracy score belongs to LR whereas in the CL, FFNN with three hidden layers yields the highest score. The results show that neural network based models underperform traditional models when the size of the training set is small; however, they beat traditional models by a non-trivial margin, when they are fed with large enough data. Finally, the feature analysis confirms that men and women have different writing styles independent of their language.
- Abstract(参考訳): 本研究は、ユーザのツイートのテキストから抽出した言語に依存しない特徴に基づいて、Twitterユーザーの性別を予測するための一連の実験を行う。
実験は、ポルトガル語、フランス語、オランダ語、英語、ドイツ語、イタリア語の6カ国語で書かれたツイートを含むTwiStyデータセットのバージョンで実施された。
ロジスティック回帰(LR)とフィードバックプロパゲーションを備えたフィードフォワードニューラルネットワーク(FFNN)は、インターリンガル(IL)とクロスリンガル(CL)の2つの異なる設定でモデルを構築するために使用された。
IL設定では、トレーニングとテストは同じ言語で行われ、CL、イタリア、ドイツのデータセットは別々に設定され、テストセットとしてのみ使用され、残りはトレーニングと開発セットを構成するために組み合わせられた。
ILでは、最も高い精度のスコアはLRに属するが、CLでは、3つの隠蔽層を持つFFNNが最も高いスコアを得る。
その結果、ニューラルネットワークベースのモデルは、トレーニングセットのサイズが小さい場合、従来のモデルよりも性能が低いことがわかった。
最後に、特徴分析により、男性と女性は言語に依存しない書き方を持っていることを確認した。
関連論文リスト
- XFEVER: Exploring Fact Verification across Languages [40.1637899493061]
本稿では,異なる言語間で事実検証モデルをベンチマークするために設計された言語間ファクト抽出と検証データセットを提案する。
我々は、Fact extract and VERificationデータセットのクレームとエビデンステキストを6言語に翻訳して構築した。
トレーニングセットと開発セットは機械翻訳を使用して翻訳され、テストセットはプロの翻訳者によって翻訳されたテキストと機械翻訳されたテキストを含む。
論文 参考訳(メタデータ) (2023-10-25T01:20:17Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Analyzing the Generalizability of Deep Contextualized Language
Representations For Text Classification [0.0]
本研究では,2つの最先端の文脈言語表現であるELMoとDistilBERTのロバスト性を評価する。
ニュース分類タスクでは、これらのモデルはインドからのローカルニュースで開発され、中国からのローカルニュースでテストされる。
感情分析タスクでは、モデルが映画レビューに基づいてトレーニングされ、顧客レビューでテストされる。
論文 参考訳(メタデータ) (2023-03-22T22:31:09Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Fake News Detection in Spanish Using Deep Learning Techniques [0.0]
本稿では,機械学習を用いたスペイン語における偽ニュース検出の問題に対処する。
基本的には英語における問題と同じである。
マシンラーニングモデルを効果的にトレーニングするために、スペイン語で公開され、適切にラベル付けされた偽ニュースは、それほど多くはない。
論文 参考訳(メタデータ) (2021-10-13T02:56:16Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。