論文の概要: Integrating Crowdsourcing and Active Learning for Classification of
Work-Life Events from Tweets
- arxiv url: http://arxiv.org/abs/2003.12139v2
- Date: Thu, 2 Apr 2020 15:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 20:56:23.758510
- Title: Integrating Crowdsourcing and Active Learning for Classification of
Work-Life Events from Tweets
- Title(参考訳): ツイートからワークライフイベントを分類するためのクラウドソーシングとアクティブラーニングの統合
- Authors: Yunpeng Zhao, Mattia Prosperi, Tianchen Lyu, Yi Guo, Jiang Bian
- Abstract要約: ソーシャルメディアデータは構造化されておらず、研究のために複雑な操作をしなければならない。
私たちは、アクティブな学習戦略を組み合わせたクラウドソーシングパイプラインを考案しました。
結果として、クラウドソーシングは高品質なアノテーションを作成するのに有用であり、アクティブな学習は必要なツイート数を減らすのに役立ちます。
- 参考スコア(独自算出の注目度): 9.137917522951277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media, especially Twitter, is being increasingly used for research
with predictive analytics. In social media studies, natural language processing
(NLP) techniques are used in conjunction with expert-based, manual and
qualitative analyses. However, social media data are unstructured and must
undergo complex manipulation for research use. The manual annotation is the
most resource and time-consuming process that multiple expert raters have to
reach consensus on every item, but is essential to create gold-standard
datasets for training NLP-based machine learning classifiers. To reduce the
burden of the manual annotation, yet maintaining its reliability, we devised a
crowdsourcing pipeline combined with active learning strategies. We
demonstrated its effectiveness through a case study that identifies job loss
events from individual tweets. We used Amazon Mechanical Turk platform to
recruit annotators from the Internet and designed a number of quality control
measures to assure annotation accuracy. We evaluated 4 different active
learning strategies (i.e., least confident, entropy, vote entropy, and
Kullback-Leibler divergence). The active learning strategies aim at reducing
the number of tweets needed to reach a desired performance of automated
classification. Results show that crowdsourcing is useful to create
high-quality annotations and active learning helps in reducing the number of
required tweets, although there was no substantial difference among the
strategies tested.
- Abstract(参考訳): ソーシャルメディア、特にTwitterは、予測分析の研究にますます利用されている。
ソーシャルメディア研究において、自然言語処理(NLP)技術は専門家に基づく、手動、定性的な分析と共に用いられる。
しかし、ソーシャルメディアデータは構造化されておらず、研究のために複雑な操作をしなければならない。
手動アノテーションは、複数の専門家が各項目のコンセンサスに到達しなければならない、最もリソースと時間を要するプロセスであるが、nlpベースの機械学習分類器をトレーニングするためのゴールド標準データセットを作成するために必須である。
マニュアルアノテーションの負担を軽減し,信頼性を維持しつつ,アクティブな学習戦略を組み合わせたクラウドソーシングパイプラインを考案した。
個々のツイートからジョブ損失イベントを識別するケーススタディを通じて,その効果を実証した。
私たちはAmazon Mechanical Turkプラットフォームを使用して、インターネットからアノテータを募集し、アノテータの精度を保証するために多くの品質管理対策を設計しました。
4種類のアクティブラーニング戦略(すなわち、最小自信、エントロピー、投票エントロピー、kullback-leibler divergence)を評価した。
アクティブな学習戦略は、自動分類の望ましいパフォーマンスに到達するために必要なツイート数を減らすことを目的としている。
その結果、クラウドソーシングは高品質なアノテーションを作成するのに有用であり、アクティブな学習は必要なツイート数を減らすのに役立つことがわかった。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Active Learning to Guide Labeling Efforts for Question Difficulty Estimation [1.0514231683620516]
トランスフォーマーベースのニューラルネットワークは、主に教師なしの手法ではなく、教師なし学習における独立した研究によって、最先端のパフォーマンスを達成する。
この研究は、教師付きヒューマン・イン・ザ・ループアプローチであるQDEのアクティブ・ラーニングを探求することで、研究ギャップを埋める。
PowerVarianceの取得によるアクティブな学習は、トレーニングデータの10%だけをラベル付けした後、完全に教師されたモデルに近いパフォーマンスを達成することを示す実験である。
論文 参考訳(メタデータ) (2024-09-14T02:02:42Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - Active Learning of Ordinal Embeddings: A User Study on Football Data [4.856635699699126]
人間は本来、未知の類似性関数を使用してラベル付けされていないデータセットのインスタンス間の距離を計測する。
この研究はディープ・メトリック・ラーニングを使用して、大規模なフットボールの軌跡データセットのアノテーションからユーザ定義の類似性関数を学習する。
論文 参考訳(メタデータ) (2022-07-26T07:55:23Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。