論文の概要: Construction of English Resume Corpus and Test with Pre-trained Language
Models
- arxiv url: http://arxiv.org/abs/2208.03219v1
- Date: Fri, 5 Aug 2022 15:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:31:45.453605
- Title: Construction of English Resume Corpus and Test with Pre-trained Language
Models
- Title(参考訳): 英語検索コーパスの構築と事前学習型言語モデルによるテスト
- Authors: Chengguang Gan, Tatsunori Mori
- Abstract要約: 本研究では,履歴書の情報抽出タスクを簡単な文分類タスクに変換することを目的とする。
分類規則は、履歴書のより大きくよりきめ細かな分類データセットを作成するために改善される。
このコーパスは、現在の主要なプレトレーニング言語モデル(PLM)のパフォーマンスをテストするためにも使われる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information extraction(IE) has always been one of the essential tasks of NLP.
Moreover, one of the most critical application scenarios of information
extraction is the information extraction of resumes. Constructed text is
obtained by classifying each part of the resume. It is convenient to store
these texts for later search and analysis. Furthermore, the constructed resume
data can also be used in the AI resume screening system. Significantly reduce
the labor cost of HR. This study aims to transform the information extraction
task of resumes into a simple sentence classification task. Based on the
English resume dataset produced by the prior study. The classification rules
are improved to create a larger and more fine-grained classification dataset of
resumes. This corpus is also used to test some current mainstream Pre-training
language models (PLMs) performance.Furthermore, in order to explore the
relationship between the number of training samples and the correctness rate of
the resume dataset, we also performed comparison experiments with training sets
of different train set sizes.The final multiple experimental results show that
the resume dataset with improved annotation rules and increased sample size of
the dataset improves the accuracy of the original resume dataset.
- Abstract(参考訳): 情報抽出(IE)は常にNLPの重要なタスクの1つです。
さらに、情報抽出の最も重要な応用シナリオの1つは履歴書の情報抽出である。
履歴書の各部分を分類して構成テキストを得る。
これらのテキストを後続の検索と分析のために保存することは便利である。
さらに、構築された履歴データもAI履歴スクリーニングシステムで使用できる。
hrの労働コストを大幅に削減する。
本研究では,履歴書の情報抽出タスクを簡単な文分類タスクに変換することを目的とする。
先行研究によって得られた英語の履歴データセットに基づく。
分類規則は、履歴書のより大きくよりきめ細かい分類データセットを作成するために改善される。
This corpus is also used to test some current mainstream Pre-training language models (PLMs) performance.Furthermore, in order to explore the relationship between the number of training samples and the correctness rate of the resume dataset, we also performed comparison experiments with training sets of different train set sizes.The final multiple experimental results show that the resume dataset with improved annotation rules and increased sample size of the dataset improves the accuracy of the original resume dataset.
関連論文リスト
- Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - Unified Pretraining for Recommendation via Task Hypergraphs [55.98773629788986]
本稿では,タスクハイパーグラフによる推薦のための統一事前学習という,新しいマルチタスク事前学習フレームワークを提案する。
多様なプレテキストタスクの要求やニュアンスを処理するための統一学習パターンとして,プレテキストタスクをハイパーエッジ予測に一般化するタスクハイパーグラフを設計する。
各プレテキストタスクとレコメンデーションの関連性を識別的に学習するために、新しいトランジショナルアテンション層が考案される。
論文 参考訳(メタデータ) (2023-10-20T05:33:21Z) - Resume Information Extraction via Post-OCR Text Processing [0.0]
光文字認識などの前処理後に、すべてのテキストグループを分類することで、情報を抽出することを目的としている。
テキストデータセットは、IT業界で5つの異なるジョブ記述のために収集された286の履歴書で構成されている。
オブジェクト認識用に作成されたデータセットは1198の履歴書で構成されており、これはオープンソースのインターネットから収集され、テキストのセットとしてラベル付けされている。
論文 参考訳(メタデータ) (2023-06-23T20:14:07Z) - Abstractive Text Summarization for Resumes With Cutting Edge NLP
Transformers and LSTM [0.0]
LSTM、事前訓練されたモデル、微調整されたモデルは履歴書のデータセットを用いて評価された。
履歴データセットを微調整したBART-Largeモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2023-06-23T06:33:20Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Zero-Shot Information Extraction as a Unified Text-to-Triple Translation [56.01830747416606]
我々は、テキストから3つの翻訳フレームワークに一連の情報抽出タスクを投入した。
タスク固有の入力テキストと出力トリプルの変換としてタスクを形式化する。
本稿では,オープン情報抽出におけるゼロショット性能について検討する。
論文 参考訳(メタデータ) (2021-09-23T06:54:19Z) - Back-Translated Task Adaptive Pretraining: Improving Accuracy and
Robustness on Text Classification [5.420446976940825]
本稿では, LM再学習のためのタスク固有データ量を増加させるBT-TAPT法を提案する。
実験結果から,BT-TAPTは従来の適応型事前学習法よりも低リソースデータと高リソースデータの両方の分類精度が向上し,ノイズに対する堅牢性が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-22T06:27:35Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。