Fugu-MT 論文翻訳(概要): Learning to Match Job Candidates Using Multilingual Bi-Encoder BERT

論文の概要: Learning to Match Job Candidates Using Multilingual Bi-Encoder BERT

arxiv url: http://arxiv.org/abs/2109.07157v1
Date: Wed, 15 Sep 2021 08:43:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-16 14:56:50.676919
Title: Learning to Match Job Candidates Using Multilingual Bi-Encoder BERT
Title（参考訳）: 多言語バイエンコーダBERTを用いたジョブ候補のマッチング学習
Authors: Dor Lavi
Abstract要約: ラベル付きCV空きペアデータセットを生成するために、候補配置のRandstad履歴をどのように利用したかを示す。上述した課題の多くを克服する上で,この構造を用いることがいかに役立つのか,CVや空洞にマッチする,メンテナンス可能なスケーラブルなパイプラインの構築を可能にするか,などを説明します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this talk, we will show how we used Randstad history of candidate placements to generate labeled CV-vacancy pairs dataset. Afterwards we fine-tune a multilingual BERT with bi encoder structure over this dataset, by adding a cosine similarity log loss layer. We will explain how using the mentioned structure helps us overcome most of the challenges described above, and how it enables us to build a maintainable and scalable pipeline to match CVs and vacancies. In addition, we show how we gain a better semantic understanding, and learn to bridge the vocabulary gap. Finally, we highlight how multilingual transformers help us handle cross language barrier and might reduce discrimination.
Abstract（参考訳）: この講演では、候補配置のRandstad履歴を使用して、ラベル付きCV空きペアデータセットを生成する方法について説明する。その後、コサイン類似性ログ損失層を追加して、このデータセット上にバイエンコーダ構造を持つ多言語BERTを微調整する。上述した課題の多くを克服する上で,この構造を用いることがいかに役立つのか,CVや空洞に適合するメンテナンス可能なスケーラブルなパイプラインを構築する上でのメリットについて説明する。さらに、より優れた意味理解を得る方法を示し、語彙のギャップを埋めることを学ぶ。最後に,多言語トランスフォーマーが言語間障壁の対処にどのように役立つか,そして識別を減少させるかを強調する。

関連論文リスト

Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文参考訳（メタデータ） (2025-02-10T13:50:12Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
Training Effective Neural Sentence Encoders from Automatically Mined Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文参考訳（メタデータ） (2022-07-26T09:08:56Z)
Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。標準ベンチマークの大幅な向上を報告します。
論文参考訳（メタデータ） (2022-04-30T13:23:16Z)
conSultantBERT: Fine-tuned Siamese Sentence-BERT for Matching Jobs and Job Seekers [2.208694022993555]
解析された履歴データのノイズ、異なるデータソースの異種性、およびクロスリンガル性および多言語性がドメイン固有の課題であることを示す。我々は、大規模な実世界と高品質のデータセットを使用して、当社のスタッフコンサルタントによってラベル付けされた270,000回の再開空白ペアを使用して、conSultantBERT(conSultantBERT)と呼ばれるSiamese Sentence Siamese-BERT(SBERT)モデルを微調整することで、これらの課題に対処する。我々の微調整モデルはTF-IDF重み付き特徴ベクトルとBERT埋め込みに依存する教師なしベースラインと教師なしベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2021-09-14T07:57:05Z)
MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguation using Augmented Data, Signals, and Transformers [1.869621561196521]
我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。多言語とクロスリンガルの両方の設定のためのシステムを提出します。
論文参考訳（メタデータ） (2021-04-04T08:49:28Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Looking for Clues of Language in Multilingual BERT to Improve Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文参考訳（メタデータ） (2020-10-20T05:41:35Z)
A Study of Cross-Lingual Ability and Language-specific Information in Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文参考訳（メタデータ） (2020-04-20T11:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。