論文の概要: ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models
- arxiv url: http://arxiv.org/abs/2406.18125v2
- Date: Fri, 12 Jul 2024 18:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 00:06:54.744097
- Title: ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models
- Title(参考訳): ResumeAtlas:大規模データセットと大規模言語モデルによるResume分類の再検討
- Authors: Ahmed Heakl, Youssef Mohamed, Noran Mohamed, Aly Elsharkawy, Ahmed Zaky,
- Abstract要約: 様々な情報源から13,389人の履歴書を収集した。
我々は BERT や Gemma1.1 2B などの大規模言語モデル (LLM) を分類に用いた。
その結果,従来の機械学習手法よりも大幅に改善された。
- 参考スコア(独自算出の注目度): 0.9237437350215897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing reliance on online recruitment platforms coupled with the adoption of AI technologies has highlighted the critical need for efficient resume classification methods. However, challenges such as small datasets, lack of standardized resume templates, and privacy concerns hinder the accuracy and effectiveness of existing classification models. In this work, we address these challenges by presenting a comprehensive approach to resume classification. We curated a large-scale dataset of 13,389 resumes from diverse sources and employed Large Language Models (LLMs) such as BERT and Gemma1.1 2B for classification. Our results demonstrate significant improvements over traditional machine learning approaches, with our best model achieving a top-1 accuracy of 92\% and a top-5 accuracy of 97.5\%. These findings underscore the importance of dataset quality and advanced model architectures in enhancing the accuracy and robustness of resume classification systems, thus advancing the field of online recruitment practices.
- Abstract(参考訳): オンライン採用プラットフォームへの依存度の増加とAI技術の採用は、効率的な再編成手法の必要性を浮き彫りにした。
しかし、小さなデータセット、標準化された履歴テンプレートの欠如、プライバシー問題といった課題は、既存の分類モデルの正確性と有効性を妨げている。
本研究では,これらの課題に対して,分類を再開するための包括的アプローチを提案する。
多様な情報源から13,389人の履歴書を収集し,BERT や Gemma1.1 2B などの大規模言語モデル (LLM) を用いて分類を行った。
その結果,従来の機械学習手法に比べて,トップ1の精度92\%,トップ5の精度97.5\%を達成した。
これらの知見は、履歴分類システムの精度と堅牢性を高めるために、データセットの品質と高度なモデルアーキテクチャの重要性を浮き彫りにして、オンライン採用の実践の分野を推し進めている。
関連論文リスト
- Training Data for Large Language Model [2.1178416840822027]
ChatGPTは、事前学習コーパスのパラメータとスケールの点で、以前のモデルを上回った。
ChatGPTは、大量の高品質な人間注釈付きデータを微調整することで、革命的なパフォーマンス向上を実現した。
本稿では,大規模言語モデルの事前学習と微調整の現状を概説する。
論文 参考訳(メタデータ) (2024-11-12T11:09:58Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR)
CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。
我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文 参考訳(メタデータ) (2024-02-28T09:27:29Z) - Improving Classification Performance With Human Feedback: Label a few,
we label the rest [2.7386128680964408]
本稿では,連続フィードバックループがモデルをどのように洗練し,精度,リコール,精度を向上させるかを理解することに焦点を当てる。
このアプローチをFinancial Phrasebank, Banking, Craigslist, Trec, Amazon Reviewsのデータセットでベンチマークし、ラベル付き例をいくつか挙げただけで、ゼロショットの大規模言語モデルの精度を上回ります。
論文 参考訳(メタデータ) (2024-01-17T19:13:05Z) - MISS: Multiclass Interpretable Scoring Systems [13.902264070785986]
MISS(Multiclass Interpretable Scoring Systems)構築のための機械学習手法を提案する。
MISSは、シングルクラス、スパース、ユーザフレンドリーなスコアリングシステムのための、完全なデータ駆動の方法論である。
結果から,本手法は他の機械学習モデルと性能指標の分類において競合し,高い校正率のクラス確率が得られたことが示唆された。
論文 参考訳(メタデータ) (2024-01-10T10:57:12Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - ESimCSE Unsupervised Contrastive Learning Jointly with UDA
Semi-Supervised Learning for Large Label System Text Classification Mode [4.708633772366381]
ESimCSEモデルは、ラベルのないデータを用いてテキストベクトル表現を効率よく学習し、より良い分類結果を得る。
UDAは、モデルと安定性の予測性能を改善するために、半教師付き学習手法を通じてラベルのないデータを用いて訓練される。
FGMとPGDは、モデルの堅牢性と信頼性を向上させるために、モデルトレーニングプロセスで使用される。
論文 参考訳(メタデータ) (2023-04-19T03:44:23Z) - Teacher Guided Training: An Efficient Framework for Knowledge Transfer [86.6784627427194]
高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。
TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。
TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
論文 参考訳(メタデータ) (2022-08-14T10:33:58Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。