論文の概要: WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain
- arxiv url: http://arxiv.org/abs/2604.13055v1
- Date: Tue, 17 Mar 2026 15:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.642418
- Title: WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain
- Title(参考訳): WorkRB: 仕事領域におけるAIのためのコミュニティ駆動評価フレームワーク
- Authors: Matthias De Lange, Warre Veys, Federico Retyk, Daniel Deniz, Warren Jouanneau, Mike Zhang, Aleksander Bielinski, Emma Jouffroy, Nicole Clobes, Nina Baranowska, David Graus, Marc Palyart, Rabih Zbib, Dimitra Gkatzia, Thomas Demeester, Tijl De Bie, Toine Bogers, Jens-Joris Decorte, Jeroen Van Hautte,
- Abstract要約: textbfWorkRB(Work Research Benchmark)は、ワークドメインAIに合わせた、オープンソースのステークホルダ駆動型ベンチマークである。
WorkRBは7つのタスクグループから13のタスクを統合されたレコメンデーションとNLPタスクとして編成し、ジョブ/スキルレコメンデーション、候補レコメンデーション、類似アイテムレコメンデーション、スキル抽出と正規化などが含まれる。
WorkRBは、機密データを開示することなく、シームレスなコントリビューションとプロプライエタリなタスクの統合のためのモジュール設計を持っている。
- 参考スコア(独自算出の注目度): 37.1490186890843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's evolving labor markets rely increasingly on recommender systems for hiring, talent management, and workforce analytics, with natural language processing (NLP) capabilities at the core. Yet, research in this area remains highly fragmented. Studies employ divergent ontologies (ESCO, O*NET, national taxonomies), heterogeneous task formulations, and diverse model families, making cross-study comparison and reproducibility exceedingly difficult. General-purpose benchmarks lack coverage of work-specific tasks, and the inherent sensitivity of employment data further limits open evaluation. We present \textbf{WorkRB} (Work Research Benchmark), the first open-source, community-driven benchmark tailored to work-domain AI. WorkRB organizes 13 diverse tasks from 7 task groups as unified recommendation and NLP tasks, including job/skill recommendation, candidate recommendation, similar item recommendation, and skill extraction and normalization. WorkRB enables both monolingual and cross-lingual evaluation settings through dynamic loading of multilingual ontologies. Developed within a multi-stakeholder ecosystem of academia, industry, and public institutions, WorkRB has a modular design for seamless contributions and enables integration of proprietary tasks without disclosing sensitive data. WorkRB is available under the Apache 2.0 license at https://github.com/techwolf-ai/WorkRB.
- Abstract(参考訳): 今日の発展する労働市場は、雇用、人材管理、労働分析のためのレコメンデーターシステムにますます依存しており、中核に自然言語処理(NLP)機能がある。
しかし、この地域の研究は非常に断片化されている。
研究では、異種オントロジー(ESCO、O*NET、国家分類学)、異種タスクの定式化、多種モデルファミリーを採用し、クロススタディ比較と再現性を極端に困難にしている。
汎用ベンチマークでは、仕事固有のタスクのカバレッジが欠如しており、雇用データ固有の感度は、オープンな評価をさらに制限している。
我々は、ワークドメインAIに合わせた、オープンソースのコミュニティ主導のベンチマークである‘textbf{WorkRB}(Work Research Benchmark)を提示する。
WorkRBは7つのタスクグループから13のタスクを統合されたレコメンデーションとNLPタスクとして編成し、ジョブ/スキルレコメンデーション、候補レコメンデーション、類似アイテムレコメンデーション、スキル抽出と正規化などが含まれる。
WorkRBは、多言語オントロジを動的にロードすることで、モノリンガルとクロスランガルの両方の評価設定を可能にする。
学術、産業、公共機関のマルチステークホルダーエコシステム内で開発されたWorkRBは、シームレスなコントリビューションのためのモジュール設計を持ち、機密データを開示することなく、プロプライエタリなタスクの統合を可能にする。
WorkRBはApache 2.0ライセンスでhttps://github.com/techwolf-ai/WorkRBで利用可能である。
関連論文リスト
- Unified Work Embeddings: Contrastive Learning of a Bidirectional Multi-task Ranker [3.4204762278595346]
ランキング問題として明示的に定式化された6つの作業関連タスクにまたがる最初の統合評価スイートであるWorkBenchを紹介した。
この洞察を用いて、実世界のデータからタスク固有の二部グラフを作成し、グラウンド化を通じて合成的にリッチ化する。
これは、多対多のInfoNCE目標でトレーニングデータ構造を利用するタスク非依存のバイエンコーダであるUnified Work Embeddings(UWE)につながります。
論文 参考訳(メタデータ) (2025-11-11T08:28:26Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - ESCOXLM-R: Multilingual Taxonomy-driven Pre-training for the Job Market
Domain [26.045871822474723]
XLM-RをベースとしたESCOXLM-Rという言語モデルを導入し,欧州技能・能力・資格・職業分類のドメイン適応型事前学習を行った。
本研究では,ESCOXLM-Rを6つのシークエンスラベリングと4つの言語における3つの分類タスクで評価し,9つのデータセットのうち6つで最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2023-05-20T04:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。