論文の概要: De-conflating Preference and Qualification: Constrained Dual-Perspective Reasoning for Job Recommendation with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.03097v1
- Date: Tue, 03 Feb 2026 04:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.244631
- Title: De-conflating Preference and Qualification: Constrained Dual-Perspective Reasoning for Job Recommendation with Large Language Models
- Title(参考訳): De-conflating Preference and Qualification:Constrained Dual-Perspective Reasoning for Job Recommendation with Large Language Models
- Authors: Bryce Kan, Wei Yang, Emily Nguyen, Ganghui Yi, Bowen Yi, Chenxiao Yu, Yan Liu,
- Abstract要約: JobRecは、制約付きデュアルパースペクティブ推論を通じて、好みと資格を廃止するためのジェネレーティブなジョブレコメンデーションフレームワークである。
JobRecは、強いベースラインを一貫して上回り、戦略対応のプロフェッショナルマッチングの制御性を改善する。
- 参考スコア(独自算出の注目度): 8.386442126920372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Professional job recommendation involves a complex bipartite matching process that must reconcile a candidate's subjective preference with an employer's objective qualification. While Large Language Models (LLMs) are well-suited for modeling the rich semantics of resumes and job descriptions, existing paradigms often collapse these two decision dimensions into a single interaction signal, yielding confounded supervision under recruitment-funnel censoring and limiting policy controllability. To address these challenges, We propose JobRec, a generative job recommendation framework for de-conflating preference and qualification via constrained dual-perspective reasoning. JobRec introduces a Unified Semantic Alignment Schema that aligns candidate and job attributes into structured semantic layers, and a Two-Stage Cooperative Training Strategy that learns decoupled experts to separately infer preference and qualification. Building on these experts, a Lagrangian-based Policy Alignment module optimizes recommendations under explicit eligibility requirements, enabling controllable trade-offs. To mitigate data scarcity, we construct a synthetic dataset refined by experts. Experiments show that JobRec consistently outperforms strong baselines and provides improved controllability for strategy-aware professional matching.
- Abstract(参考訳): 専門職の推薦には、候補者の主観的な選好と雇用者の客観的な資格を調整しなければならない複雑な二部作のマッチングプロセスが含まれる。
LLM(Large Language Models)は履歴書とジョブ記述のリッチなセマンティクスをモデル化するのに適しているが、既存のパラダイムは、これらの2つの決定次元を単一の相互作用信号に分解し、リクルート・ファンネルの検閲とポリシー管理の制限の下で、統合された監督を与える。
これらの課題に対処するために、制約付き二重パースペクティブ推論による選好と資格の非拡散のための生成的ジョブレコメンデーションフレームワークであるJobRecを提案する。
JobRecでは、候補属性とジョブ属性を構造化セマンティックレイヤに整合させる統一セマンティックアライメントスキーマと、分離された専門家から選好と資格を別々に推測する2段階協調トレーニング戦略を導入している。
これらの専門家に基づいて、ラグランジアンベースのポリシーアライメントモジュールは、明確な資格要件の下でレコメンデーションを最適化し、コントロール可能なトレードオフを可能にする。
データ不足を軽減するため、専門家によって改良された合成データセットを構築した。
実験によると、JobRecは強いベースラインを一貫して上回り、戦略対応のプロフェッショナルマッチングの制御性を改善している。
関連論文リスト
- ARCANE: A Multi-Agent Framework for Interpretable and Configurable Alignment [11.754819989978785]
ARCANEは、複数エージェントの協調問題としてアライメントをフレーム化して、自然言語のルーリックとして利害関係者の好みを動的に表現するフレームワークである。
実用理論に着想を得て, ルーブリック学習を再構築問題として定式化し, 正規化グループシーケンスポリシー最適化(GSPO)手法を適用した。
以上の結果から,ルーブリックに基づく報酬モデルが,複雑な長軸AIシステムに対して,解釈可能な,テスト時適応アライメントへの有望な経路を提供することが示された。
論文 参考訳(メタデータ) (2025-12-05T22:39:54Z) - Generative Reasoning Recommendation via LLMs [48.45009951684554]
大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)として機能する上で、根本的な課題に直面している。
本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。
本稿では,協調的セマンティックアライメント(Collaborative-Semantic Alignment),Reasoning Curriculum Activation(Reasoning Curriculum Activation),Sparse-Regularized Group Policy Optimization(Sparse-Regularized Group Policy Optimization)の3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
論文 参考訳(メタデータ) (2025-10-23T17:59:31Z) - Group Causal Policy Optimization for Post-Training Large Language Models [10.791474908144703]
グループ相対政策最適化(GRPO)は、補完性や矛盾といった意味的な相互作用を見越して、候補応答を独立したものとして扱う。
本稿では2つの重要なコンポーネントを通じて因果構造を最適化するグループ因果ポリシー最適化(GCPO)を提案する。
GCPOは、複数の推論ベンチマークでGRPOを含む既存のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T14:17:28Z) - 2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization [3.674552982566341]
2D-Curri-DPOは、Prompt Complexity(PC)とPairwise Distinguishability(Pairwise Distinguishability)を共同でモデル化する2次元カリキュラムを採用した新しいフレームワークである。
我々の手法はUltraFeedbackのような挑戦的なテストセットに対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-04-10T15:32:00Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。