論文の概要: ConFit v3: Improving Resume-Job Matching with LLM-based Re-Ranking
- arxiv url: http://arxiv.org/abs/2605.09760v1
- Date: Sun, 10 May 2026 21:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.407598
- Title: ConFit v3: Improving Resume-Job Matching with LLM-based Re-Ranking
- Title(参考訳): ConFit v3: LLMベースのリランキングによるResume-Jobマッチングの改善
- Authors: Xiao Yu, Ruize Xu, Chengyuan Xue, Junyu Chen, Matthew So, Shijun Ma, Bo Liu, Xiangye Liang, Zhou Yu,
- Abstract要約: ConFit v3をQwen3-8BとQwen3-32Bでトレーニングします。
GPT-5やClaude Opus-4.5のような強力なLCMと同様に、既存のベストパーソナリティ適合システムよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 25.204351022437923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A reliable resume-job matching system helps a company find suitable candidates from a pool of resumes and helps a job seeker find relevant jobs from a list of job posts. While recent advances in embedding-based methods such as ConFit and ConFit v2 can efficiently retrieve candidates at scale, the lack of controllability and explainability limits their real-world adaptations. LLM-based re-rankers can address these limitations through reasoning, but existing training recipes are developed on short-document benchmarks and do not account for noise in real-world recruiting data. In this work, we first conduct a systematic analysis over the LLM re-ranker training pipeline for person-job fit, covering inference algorithm design, RL algorithm selection, data processing, and SFT distillation. We find that using multi-pass re-ranking, training with listwise RL objectives, removing noisy samples, and distilling from a stronger LLM before RL significantly improves re-ranking performance. We then aggregate these findings to train ConFit v3 with Qwen3-8B and Qwen3-32B on real-world person-job fit datasets, and find significant improvements over existing best person-job fit systems as well as strong LLMs such as GPT-5 and Claude Opus-4.5. We hope our findings provide useful insights for future research on adapting LLM-based re-rankers to person-job fit systems.
- Abstract(参考訳): 信頼できる履歴書マッチングシステムは、企業が履歴書のプールから適切な候補を見つけるのに役立ち、求職者が求職者リストから関連する求職者を見つけるのに役立ちます。
ConFitやConFit v2のような組み込みベースの手法の最近の進歩は、大規模な候補を効率的に検索できる一方で、制御性や説明可能性の欠如により、現実の適応が制限されている。
LLMベースのリランカは推論によってこれらの制限に対処できるが、既存のトレーニングレシピはショートドキュメントのベンチマークで開発されており、実際の採用データではノイズを考慮していない。
そこで本研究では,まず,推論アルゴリズムの設計,RLアルゴリズムの選択,データ処理,およびSFT蒸留を対象とし,LLMリランカトレーニングパイプラインの体系的解析を行った。
その結果, マルチパス再ランク化, リストワイズRL目標を用いたトレーニング, ノイズの多いサンプルの除去, およびRL前の強いLLMからの蒸留により, 再ランク化性能が著しく向上することが判明した。
次に,これらの知見を集約して,実世界における人-ジョブ適合データセット上でのQwen3-8BおよびQwen3-32Bを用いたConFit v3のトレーニングを行い,GPT-5やClaude Opus-4.5のような強力なLCMと同様に,既存の人-ジョブ適合システムよりも大幅に改善されていることを確認した。
LLMをベースとしたリランカーの人体適合システムへの適応に関する今後の研究に有用な知見が得られればと願っている。
関連論文リスト
- Augmented Fine-Tuned LLMs for Enhanced Recruitment Automation [0.4349640169711269]
大規模言語モデル(LLM)は精度と効率を向上させるために微調整された。
システムは標準化されたフォーマットを使用する合成データセットを作成する。
Phy-4は90.62%という最高スコアを達成し、採用作業における例外的な精度とリコールを示している。
論文 参考訳(メタデータ) (2025-09-07T20:18:31Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Regurgitative Training: The Value of Real Data in Training Large Language Models [1.2815904071470703]
LLMの性能に及ぼす「相対的学習」の影響について検討した。
退行訓練がLSMの性能を著しく向上させる強い証拠が得られている。
本稿では,3つの異なる戦略を提案して評価する。
論文 参考訳(メタデータ) (2024-07-03T18:42:55Z) - ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation [12.321332446941378]
Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。
効率的なRLHFトレーニングのための先駆的システムであるReaLを紹介する。
最大700億のパラメータと128のGPUを持つLLaMAモデル上でReaLを評価する。
論文 参考訳(メタデータ) (2024-06-20T08:04:07Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。