論文の概要: Combining Embeddings and Domain Knowledge for Job Posting Duplicate Detection
- arxiv url: http://arxiv.org/abs/2406.06257v1
- Date: Mon, 10 Jun 2024 13:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:58:00.131418
- Title: Combining Embeddings and Domain Knowledge for Job Posting Duplicate Detection
- Title(参考訳): 求人投稿重複検出のための埋め込みとドメイン知識の組み合わせ
- Authors: Matthias Engelbach, Dennis Klau, Maximilien Kintz, Alexander Ulrich,
- Abstract要約: 求人説明は、企業ウェブサイト、求人掲示板、ソーシャルメディアプラットフォームなど、多くのオンラインチャンネルに掲載されている。
プラットフォーム間でジョブの投稿を集約し、同じジョブを参照する重複記述を検出するのに役立つ。
重みに基づく文字類似性とテキスト埋め込みとキーワードマッチング法を組み合わせることで、説得力のある結果が得られることを示す。
- 参考スコア(独自算出の注目度): 42.49221181099313
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Job descriptions are posted on many online channels, including company websites, job boards or social media platforms. These descriptions are usually published with varying text for the same job, due to the requirements of each platform or to target different audiences. However, for the purpose of automated recruitment and assistance of people working with these texts, it is helpful to aggregate job postings across platforms and thus detect duplicate descriptions that refer to the same job. In this work, we propose an approach for detecting duplicates in job descriptions. We show that combining overlap-based character similarity with text embedding and keyword matching methods lead to convincing results. In particular, we show that although no approach individually achieves satisfying performance, a combination of string comparison, deep textual embeddings, and the use of curated weighted lookup lists for specific skills leads to a significant boost in overall performance. A tool based on our approach is being used in production and feedback from real-life use confirms our evaluation.
- Abstract(参考訳): 求人説明は、企業ウェブサイト、求人掲示板、ソーシャルメディアプラットフォームなど、多くのオンラインチャンネルに掲載されている。
これらの記述は、通常、各プラットフォームの要件や異なるオーディエンスをターゲットにして、同じ仕事のために様々なテキストで発行される。
しかし、これらのテキストを扱う人々の自動採用や支援を目的として、プラットフォーム間での求人情報を集約し、同一のジョブを参照する重複記述を検出することが有用である。
本研究では,ジョブ記述中の重複を検知する手法を提案する。
重みに基づく文字類似性とテキスト埋め込みとキーワードマッチング法を組み合わせることで、説得力のある結果が得られることを示す。
特に,文字列比較と深層テキスト埋め込みの組み合わせ,および特定のスキルに対する重み付き検索リストの使用などにより,個別に満足度を達成できるアプローチは存在しないものの,全体的なパフォーマンスが著しく向上することを示す。
実運用では,本手法をベースとしたツールが使用されており,実運用からのフィードバックが評価を裏付けている。
関連論文リスト
- BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Annotator in the Loop: A Case Study of In-Depth Rater Engagement to Create a Bridging Benchmark Dataset [1.825224193230824]
本稿では,アノテーションのための新規かつ協調的かつ反復的なアノテーション手法について述べる。
以上の結果から,アノテータとの連携によりアノテーションの手法が強化されることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T19:11:08Z) - Thesis: Document Summarization with applications to Keyword extraction and Image Retrieval [0.0]
意見要約のための部分モジュラ関数の集合を提案する。
意見要約は、その中に要約と感情検出のタスクが組み込まれている。
我々の関数は、文書の感情と要約の感情と良いROUGEスコアとの相関関係が良いような要約を生成する。
論文 参考訳(メタデータ) (2024-05-20T21:27:18Z) - TAROT: A Hierarchical Framework with Multitask Co-Pretraining on
Semi-Structured Data towards Effective Person-Job Fit [60.31175803899285]
本稿では,階層型マルチタスク協調訓練フレームワークであるTAROTを提案する。
TAROTは、プロファイルとジョブにおける半構造化テキストをターゲットにしており、取得したセマンティック情報を各レベルで制限するために、複数のきめ細かい事前訓練タスクと共に保持されている。
論文 参考訳(メタデータ) (2024-01-15T07:57:58Z) - VacancySBERT: the approach for representation of titles and skills for
semantic similarity search in the recruitment domain [0.0]
本稿では、HRドメインに適用されたディープラーニングセマンティックサーチアルゴリズムに焦点を当てた。
この記事の目的は、求人広告で言及されているスキルとタイトルを結びつけるために、シームズネットワークをトレーニングする新しいアプローチを開発することである。
論文 参考訳(メタデータ) (2023-07-31T13:21:15Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition [60.36540008537054]
本研究では,従来のテキスト認識における文字数カウントという暗黙のタスクを,追加的な注釈コストなしで発掘する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
7つのベンチマークの実験では、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点が示されている。
論文 参考訳(メタデータ) (2021-05-13T12:27:35Z) - GroupLink: An End-to-end Multitask Method for Word Grouping and Relation
Extraction in Form Understanding [25.71040852477277]
単語グループ化と関係抽出を組み合わせたマルチタスク学習によるエンドツーエンドモデルを構築し,各タスクの性能向上を図る。
提案手法を実世界の完全注釈付きノイズスキャンベンチマークであるFUNSDで検証する。
論文 参考訳(メタデータ) (2021-05-10T20:15:06Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Learning Effective Representations for Person-Job Fit by Feature Fusion [4.884826427985207]
Person-job fitは、機械学習アルゴリズムを使用して、オンライン採用プラットフォーム上の候補者と求職者をマッチングする。
本稿では,機能融合による候補者と求職者の包括的かつ効果的な表現を学習することを提案する。
10ヶ月にわたる実データ実験により、我々のソリューションは既存の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-06-12T09:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。