論文の概要: Distilling Large Language Models using Skill-Occupation Graph Context
for HR-Related Tasks
- arxiv url: http://arxiv.org/abs/2311.06383v1
- Date: Fri, 10 Nov 2023 20:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:01:52.273954
- Title: Distilling Large Language Models using Skill-Occupation Graph Context
for HR-Related Tasks
- Title(参考訳): 人事関連課題に対するスキル・オキュベーション・グラフ・コンテキストを用いた大規模言語モデルの蒸留
- Authors: Pouya Pezeshkpour, Hayate Iso, Thom Lake, Nikita Bhutani, Estevam
Hruschka
- Abstract要約: 幅広いHRタスクに対応するためにResume-Job Description Benchmark (RJDB)を導入する。
私たちのベンチマークには、ジョブ記述、マッチした履歴書、未一致の履歴書が5万件以上含まれています。
実験の結果,学生モデルは教師モデル(GPT-4)よりも近・近性能が得られ,ベンチマークの有効性が確認された。
- 参考スコア(独自算出の注目度): 8.235367170516769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous HR applications are centered around resumes and job descriptions.
While they can benefit from advancements in NLP, particularly large language
models, their real-world adoption faces challenges due to absence of
comprehensive benchmarks for various HR tasks, and lack of smaller models with
competitive capabilities. In this paper, we aim to bridge this gap by
introducing the Resume-Job Description Benchmark (RJDB). We meticulously craft
this benchmark to cater to a wide array of HR tasks, including matching and
explaining resumes to job descriptions, extracting skills and experiences from
resumes, and editing resumes. To create this benchmark, we propose to distill
domain-specific knowledge from a large language model (LLM). We rely on a
curated skill-occupation graph to ensure diversity and provide context for LLMs
generation. Our benchmark includes over 50 thousand triples of job
descriptions, matched resumes and unmatched resumes. Using RJDB, we train
multiple smaller student models. Our experiments reveal that the student models
achieve near/better performance than the teacher model (GPT-4), affirming the
effectiveness of the benchmark. Additionally, we explore the utility of RJDB on
out-of-distribution data for skill extraction and resume-job description
matching, in zero-shot and weak supervision manner. We release our datasets and
code to foster further research and industry applications.
- Abstract(参考訳): 多くのhrアプリケーションは、履歴書とジョブ記述に集中している。
NLP、特に大きな言語モデルの進歩の恩恵を受けることができるが、実際の採用は、さまざまなHRタスクに対する包括的なベンチマークが欠如し、競争力のある小さなモデルがないため、課題に直面している。
本稿では,Resume-Job Description Benchmark (RJDB)を導入して,このギャップを埋めることを目的とする。
このベンチマークは、ジョブ記述への履歴書のマッチングや説明、履歴書からスキルや経験の抽出、履歴書の編集など、幅広い人事タスクに対応するために細心の注意を払っています。
このベンチマークを作成するために,大規模言語モデル(LLM)からドメイン固有知識を抽出する手法を提案する。
多様性の確保とLLM生成のコンテキスト提供のために、キュレートされたスキル占有グラフを頼りにしています。
私たちのベンチマークには、5万以上のジョブ記述、マッチした履歴書、マッチしない履歴書が含まれています。
RJDBを使用して、複数の小さな学生モデルを訓練する。
実験の結果,学生モデルは教師モデル(GPT-4)よりも近・近性能が得られ,ベンチマークの有効性が確認された。
さらに,スキル抽出と履歴書記述マッチングのための配布外データに対するRJDBの有用性を,ゼロショットと弱い監督方法で検討する。
私たちは、さらなる研究と産業アプリケーションを促進するためにデータセットとコードをリリースします。
関連論文リスト
- HRGraph: Leveraging LLMs for HR Data Knowledge Graphs with Information Propagation-based Job Recommendation [0.0]
本研究では,大規模言語モデルを用いた文書から人事知識グラフを効果的に開発するための枠組みを提案する。
結果として得られるKGは、ジョブマッチング、従業員スキルギャップの特定など、さまざまなダウンストリームタスクに使用することができる。
KGs と Graph Neural Nets の情報伝達実験による実証的証拠とケーススタディは、仕事や従業員の推薦や仕事領域の分類といったタスクにおける KGs の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-08-24T08:50:25Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - ResumeFlow: An LLM-facilitated Pipeline for Personalized Resume Generation and Refinement [14.044324268372847]
ResumeFlow:Large Language Model(LLM)支援ツールを提案する。
提案するパイプラインは,OpenAIのGPT-4やGoogleのGeminiといった最先端LLMの言語理解と情報抽出機能を活用している。
我々の使い勝手の良いツールは、完全にオフ・ザ・シェルフ方式のユーザ・コッセン・LLMを利用しており、微調整は不要である。
論文 参考訳(メタデータ) (2024-02-09T07:13:44Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Design of Negative Sampling Strategies for Distantly Supervised Skill
Extraction [19.43668931500507]
本稿では,リテラルマッチングによる遠隔監視に基づく,スキル抽出のためのエンドツーエンドシステムを提案する。
ESCO分類を用いて、関連するスキルからネガティブな例を選択することで、最大の改善が得られます。
我々は,タスクのさらなる研究を促進するために,研究目的のベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2022-09-13T13:37:06Z) - Construction of English Resume Corpus and Test with Pre-trained Language
Models [0.0]
本研究では,履歴書の情報抽出タスクを簡単な文分類タスクに変換することを目的とする。
分類規則は、履歴書のより大きくよりきめ細かな分類データセットを作成するために改善される。
このコーパスは、現在の主要なプレトレーニング言語モデル(PLM)のパフォーマンスをテストするためにも使われる。
論文 参考訳(メタデータ) (2022-08-05T15:07:23Z) - JobBERT: Understanding Job Titles through Skills [12.569546741576515]
ジョブタイトルは、今日の人事(人事)プロセスの基盤を形成します。
ジョブタイトルはコンパクトで便利で、簡単に利用できるデータソースです。
本稿では,空き地から抽出したスキルラベルからの共起情報を事前学習した言語モデルに付加することにより,求職者のニューラル表現モデルを提案する。
論文 参考訳(メタデータ) (2021-09-20T15:00:10Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Job2Vec: Job Title Benchmarking with Collective Multi-View
Representation Learning [51.34011135329063]
Job Title Benchmarking (JTB) は、様々な企業で同様の専門知識を持つ職種をマッチングすることを目的としている。
従来のJTBのアプローチは主に手作業による市場調査に依存しており、それは高価で労働集約的である。
我々はJTBをジョブ-グラフ上のリンク予測のタスクとして再編成し、ジョブタイトルにマッチするリンクはリンクを持つべきである。
論文 参考訳(メタデータ) (2020-09-16T02:33:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。