論文の概要: Gender prediction using limited Twitter Data
- arxiv url: http://arxiv.org/abs/2010.02005v1
- Date: Tue, 29 Sep 2020 11:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 04:59:06.926478
- Title: Gender prediction using limited Twitter Data
- Title(参考訳): 限定的twitterデータを用いた性別予測
- Authors: Maaike Burghoorn and Maaike H.T. de Boer and Stephan Raaijmakers
- Abstract要約: 本稿では,ソーシャルメディア上でのジェンダー予測におけるBERT(単語埋め込み用トランスフォーマーモデル)の有用性について検討する。
オランダのBERTモデルは、性別をラベル付けしたオランダのTwitterデータセットの異なるサンプルに基づいて微調整される。
その結果、比較的少量のデータであっても、BERTを微調整してTwitterユーザーの性別を正確に予測できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have shown impressive performance on a variety of NLP
tasks. Off-the-shelf, pre-trained models can be fine-tuned for specific NLP
classification tasks, reducing the need for large amounts of additional
training data. However, little research has addressed how much data is required
to accurately fine-tune such pre-trained transformer models, and how much data
is needed for accurate prediction. This paper explores the usability of BERT (a
Transformer model for word embedding) for gender prediction on social media.
Forensic applications include detecting gender obfuscation, e.g. males posing
as females in chat rooms. A Dutch BERT model is fine-tuned on different samples
of a Dutch Twitter dataset labeled for gender, varying in the number of tweets
used per person. The results show that finetuning BERT contributes to good
gender classification performance (80% F1) when finetuned on only 200 tweets
per person. But when using just 20 tweets per person, the performance of our
classifier deteriorates non-steeply (to 70% F1). These results show that even
with relatively small amounts of data, BERT can be fine-tuned to accurately
help predict the gender of Twitter users, and, consequently, that it is
possible to determine gender on the basis of just a low volume of tweets. This
opens up an operational perspective on the swift detection of gender.
- Abstract(参考訳): トランスフォーマーモデルは様々なnlpタスクで印象的な性能を示している。
市販の事前トレーニング済みモデルは、特定のnlp分類タスク用に微調整することができ、大量のトレーニングデータの必要性を低減できる。
しかし、そのようなトレーニング済みトランスモデルを正確に微調整するために必要なデータ量や、正確な予測に必要なデータ量についてはほとんど研究されていない。
本稿では,ソーシャルメディア上でのジェンダー予測におけるBERT(単語埋め込み用トランスフォーマーモデル)の有用性について検討する。
法医学的な応用としては、チャットルームで女性としてポーズをとる男性など、性別の難読化の検出がある。
オランダのbertモデルは、性別でラベル付けされたオランダのtwitterデータセットの異なるサンプルで微調整され、1人あたりのツイート数によって異なる。
その結果,人当たり200ツイートのみを微調整した場合,BERTの微調整は性別分類性能(80% F1)の向上に寄与することがわかった。
しかし、1人あたり20ツイートしか使わないと、分類器の性能が低下し(70%f1)ます。
これらの結果は、比較的少量のデータであっても、BERTを微調整してTwitterユーザーの性別を正確に予測できることを示し、その結果、ごく少量のツイートに基づいて性別を決定することができることを示している。
これにより、性別の迅速検出に関する運用上の視点が開ける。
関連論文リスト
- Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender
Perturbation over Fairytale Texts [87.62403265382734]
近年の研究では、伝統的な妖精は有害な性バイアスを伴っていることが示されている。
本研究は,ジェンダーの摂動に対する頑健さを評価することによって,言語モデルの学習バイアスを評価することを目的とする。
論文 参考訳(メタデータ) (2023-10-16T22:25:09Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - Exploring Gender Bias in Retrieval Models [2.594412743115663]
情報検索におけるジェンダーバイアスの緩和は,ステレオタイプの普及を避けるために重要である。
本研究では,(1)クエリに対するドキュメントの関連性,(2)ドキュメントの“ジェンダー”という2つのコンポーネントからなるデータセットを用いる。
我々は,大容量のBERTエンコーダの完全微調整を行う場合,IRの事前学習モデルはゼロショット検索タスクではうまく動作しないことを示す。
また、事前学習されたモデルには性別バイアスがあり、検索された記事は女性よりも男性が多い傾向にあることを示した。
論文 参考訳(メタデータ) (2022-08-02T21:12:05Z) - Twitter-Based Gender Recognition Using Transformers [2.539920413471809]
画像やつぶやきからユーザの性別を予測するためのトランスフォーマーに基づくモデルを提案する。
そこで我々は,2方向変換(ViTBERT)に基づく別のモデルを微調整し,ユーザの性別をつぶやきで認識する。
組み合わせモデルは画像分類モデルとテキスト分類モデルの精度をそれぞれ6.98%と4.43%改善する。
論文 参考訳(メタデータ) (2022-04-24T19:58:42Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - Investigating Gender Bias in BERT [22.066477991442003]
我々は、感情や感情の強さの予測に関連する5つの下流タスクにおいて、それが引き起こすジェンダーバイアスを分析した。
本稿では,各BERT層に対する1つの主方向という,きめ細かい性別方向を求めるアルゴリズムを提案する。
実験により, 下流タスクにおけるBERT誘発バイアスの低減に成功していることがわかった。
論文 参考訳(メタデータ) (2020-09-10T17:38:32Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。