論文の概要: Multilingual Detection of Personal Employment Status on Twitter
- arxiv url: http://arxiv.org/abs/2203.09178v1
- Date: Thu, 17 Mar 2022 08:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 01:48:27.768605
- Title: Multilingual Detection of Personal Employment Status on Twitter
- Title(参考訳): twitterにおける個人雇用状況の多言語検出
- Authors: Manuel Tonneau, Dhaval Adjodah, Jo\~ao Palotti, Nir Grinberg, Samuel
Fraiberger
- Abstract要約: ソーシャルメディアは求職者に適切な機会を与え、社会的保護を提供し、労働市場の流れを測るために貴重な情報を提供することができる。
本稿では,3つのアクティブ・ラーニング・ストラテジーを,クラスバランスの極端に不均衡な現実的な環境で検証する。
BERTに基づく分類モデルを用いて,3言語における個人雇用状況に関する5種類の情報開示を同定した。
- 参考スコア(独自算出の注目度): 0.06299766708197882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting disclosures of individuals' employment status on social media can
provide valuable information to match job seekers with suitable vacancies,
offer social protection, or measure labor market flows. However, identifying
such personal disclosures is a challenging task due to their rarity in a sea of
social media content and the variety of linguistic forms used to describe them.
Here, we examine three Active Learning (AL) strategies in real-world settings
of extreme class imbalance, and identify five types of disclosures about
individuals' employment status (e.g. job loss) in three languages using
BERT-based classification models. Our findings show that, even under extreme
imbalance settings, a small number of AL iterations is sufficient to obtain
large and significant gains in precision, recall, and diversity of results
compared to a supervised baseline with the same number of labels. We also find
that no AL strategy consistently outperforms the rest. Qualitative analysis
suggests that AL helps focus the attention mechanism of BERT on core terms and
adjust the boundaries of semantic expansion, highlighting the importance of
interpretable models to provide greater control and visibility into this
dynamic learning process.
- Abstract(参考訳): ソーシャルメディア上で個人の雇用状況の開示を検知することは、求職者に適切な空白度、社会的保護、労働市場の流れを測定するための貴重な情報を提供することができる。
しかし,このような個人的開示の特定は,ソーシャルメディアの内容の海における希少性や,それらの記述に使用される言語形式が多様であることから,困難な課題である。
そこで本研究では,極度の階級不均衡の現実的な環境下での3つのアクティブラーニング(AL)戦略を検証し,BERTに基づく分類モデルを用いて,3言語における個人の就業状況(例えば失業)に関する5種類の開示を明らかにする。
その結果, 極端な不均衡条件下であっても, 精度, 記憶率, および結果の多様性において, 同じラベル数の教師付きベースラインと比較して, 少数のalイテレーションで大きく, 大幅な向上が得られることがわかった。
また、AL戦略が他の戦略より一貫して優れていないこともわかりました。
定性的な分析は、ALがBERTの注意機構をコア用語に集中させ、セマンティック拡張の境界を調整し、この動的学習プロセスに対する制御と可視性を提供するための解釈可能なモデルの重要性を強調することを示唆している。
関連論文リスト
- Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。
問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。
私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-29T14:52:38Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Extreme Multi-Label Skill Extraction Training using Large Language
Models [19.095612333241288]
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
以上の結果より,textitR-Precision@5では15~25ポイントの連続的な増加が見られた。
論文 参考訳(メタデータ) (2023-07-20T11:29:15Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - "FIJO": a French Insurance Soft Skill Detection Dataset [0.0]
本稿では、多くのソフトスキルアノテーションを含む保険業務のオファーを含む新しい公開データセットFIJOを提案する。
名前付きエンティティ認識を用いたスキル検出アルゴリズムの結果を提示し、トランスフォーマーベースのモデルがこのデータセット上で優れたトークンワイズ性能を示すことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:54:22Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。