論文の概要: Semi-Supervised Classification of Social Media Posts: Identifying
Sex-Industry Posts to Enable Better Support for Those Experiencing
Sex-Trafficking
- arxiv url: http://arxiv.org/abs/2104.03233v1
- Date: Wed, 7 Apr 2021 16:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:31:07.141856
- Title: Semi-Supervised Classification of Social Media Posts: Identifying
Sex-Industry Posts to Enable Better Support for Those Experiencing
Sex-Trafficking
- Title(参考訳): ソーシャルメディア投稿の半監督的分類:性行為を経験する人を支援するために性的な投稿を識別する
- Authors: Ellie Simonson
- Abstract要約: ソーシャルメディアは、セックスの密売に対する仕事にとって有益かつ有害である。
ソーシャルメディアデータを使って、トラフィックを経験する人たちのサポートをより良くする機会がある。
この論文は、性産業の一部であるソーシャルメディア投稿を特定するための半教師付き学習の利用を探求している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media is both helpful and harmful to the work against sex trafficking.
On one hand, social workers carefully use social media to support people
experiencing sex trafficking. On the other hand, traffickers use social media
to groom and recruit people into trafficking situations. There is the
opportunity to use social media data to better provide support for people
experiencing trafficking.
While AI and Machine Learning (ML) have been used in work against sex
trafficking, they predominantly focus on detecting Child Sexual Abuse Material.
Work using social media data has not been done with the intention to provide
community level support to people of all ages experiencing trafficking. Within
this context, this thesis explores the use of semi-supervised classification to
identify social media posts that are a part of the sex industry.
Several methods were explored for ML. However, the primary method used was
semi-supervised learning, which has the benefit of providing automated
classification with a limited set of labelled data. Social media posts were
embedded into low-dimensional vectors using FastText and Doc2Vec models. The
data were then clustered using k-means clustering, and cross-validation was
used to determine label propagation accuracy.
The results of the semi-supervised algorithm were encouraging. The FastText
CBOW model provided 98.6% accuracy to over 12,000 posts in clusters where label
propagation was applied. The results of this thesis suggest that further
semi-supervised learning, in conjunction with manual labeling, may allow for
the entire dataset containing over 50,000 posts to be accurately labeled.
A fully labeled dataset could be used to develop a tool to identify an
overview of where and when social media is used within the sex industry. This
could be used to help determine better ways to provide support to people
experiencing trafficking.
- Abstract(参考訳): ソーシャルメディアは、セックスの密売に対する仕事にとって有益かつ有害である。
一方、ソーシャルワーカーは、ソーシャルメディアを使って性行為を経験する人々を支援する。
一方、人身売買業者はソーシャルメディアを使って、人身売買の状況に人々を育て、リクルートする。
ソーシャルメディアデータを使って、トラフィックを経験する人たちのサポートをより良くする機会がある。
AIと機械学習(ML)は性売買に対する取り組みに使われてきたが、主に児童性虐待物質の検出に焦点を当てている。
ソーシャルメディアデータの利用は、あらゆる年齢層で交通被害に遭った人々へのコミュニティレベルの支援を意図して行われていない。
この文脈の中で、この論文は、性産業の一部であるソーシャルメディアポストを特定するための半教師付き分類の使用を探求する。
MLのためのいくつかの手法が検討された。
しかし,主な手法は半教師付き学習であり,ラベル付きデータに限定して自動分類を行うという利点がある。
ソーシャルメディア投稿は、FastTextとDoc2Vecモデルを使用して低次元ベクトルに埋め込まれた。
データはk-meansクラスタリングを使用してクラスタ化され、ラベルの伝搬精度を決定するためにクロスバリデーションが使用された。
半教師付きアルゴリズムの結果は励まされた。
FastText CBOWモデルは98.6%の精度で12,000以上のポストにラベルの伝搬を適用した。
この論文の結果は、さらに半教師付き学習と手動のラベリングを組み合わせることで、5万以上の投稿を含むデータセット全体を正確にラベリングできることを示唆している。
完全なラベル付きデータセットは、性産業でソーシャルメディアがいつどこで使われているかの概要を特定するツールの開発に使用できる。
これは、人身売買を経験する人々により良いサポートを提供する方法を決定するのに役立つだろう。
関連論文リスト
- A Semi-supervised Fake News Detection using Sentiment Encoding and LSTM with Self-Attention [0.0]
本研究では,感情分析を最先端の事前学習モデルによって獲得する半教師付き自己学習手法を提案する。
学習モデルは半教師付き方式で訓練され、LSTMに自己注意層を組み込む。
我々は,2万件のニュースコンテンツをデータセットにベンチマークし,そのフィードバックとともに,フェイクニュース検出における競合手法と比較して精度,リコール,測定性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-27T20:00:10Z) - Countering Misinformation via Emotional Response Generation [15.383062216223971]
ソーシャルメディアプラットフォーム(SMP)における誤情報拡散は、公衆衛生、社会的結束、民主主義に重大な危険をもたらす。
これまでの研究では、社会的訂正が誤情報を抑制する効果的な方法であることが示された。
約1万のクレーム応答対からなる最初の大規模データセットであるVerMouthを提案する。
論文 参考訳(メタデータ) (2023-11-17T15:37:18Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Understanding Lexical Biases when Identifying Gang-related Social Media
Communications [18.301221486244263]
シカゴのギャング関連ツイートを識別するために、バイナリロジスティック分類器を使用します。
ツイートの言語は非常に関連性が高く、ビッグデータのメソッドや機械学習モデルを使用することで、言語がモデルのパフォーマンスに与える影響をよりよく理解する必要があります。
論文 参考訳(メタデータ) (2023-04-22T21:51:49Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Ethics and Efficacy of Unsolicited Anti-Trafficking SMS Outreach [22.968179319673112]
北米における対交通技術プラットフォームの利用、状況、利益、損害について検討する。
調査の結果は、開発者、プラットフォームのユーザ、そして彼らが支援しようとしているセックス業界労働者のミスアライメントを示している。
論文 参考訳(メタデータ) (2022-02-19T05:12:34Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z) - Measuring Social Biases of Crowd Workers using Counterfactual Queries [84.10721065676913]
性別、人種などに基づく社会的バイアスは、主にバイアス付きトレーニングデータセットを介して、汚染された機械学習(ML)パイプラインに示されている。
クラウドソーシング(Crowdsourcing)は、ラベル付きトレーニングデータセットを収集するための一般的な費用効果尺度であり、群衆労働者の社会的偏見に免疫がない。
本研究では, 集団労働者ごとの社会的バイアスの程度を定量化するための, 対実的公正度に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-04T21:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。