論文の概要: Building Data-Driven Occupation Taxonomies: A Bottom-Up Multi-Stage Approach via Semantic Clustering and Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2509.15786v1
- Date: Fri, 19 Sep 2025 09:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.09519
- Title: Building Data-Driven Occupation Taxonomies: A Bottom-Up Multi-Stage Approach via Semantic Clustering and Multi-Agent Collaboration
- Title(参考訳): データ駆動型Occupation Taxonomiesの構築:セマンティッククラスタリングとマルチエージェントコラボレーションによるボトムアップマルチステージアプローチ
- Authors: Nan Li, Bo Kang, Tijl De Bie,
- Abstract要約: 高品質でデータ駆動型の作業を自動化するフレームワークであるCLIMBを紹介します。
3つの多様な実世界のデータセットから、CLIMBは既存の手法よりも一貫性があり、スケーラブルであることを示す。
- 参考スコア(独自算出の注目度): 10.386888517619997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating robust occupation taxonomies, vital for applications ranging from job recommendation to labor market intelligence, is challenging. Manual curation is slow, while existing automated methods are either not adaptive to dynamic regional markets (top-down) or struggle to build coherent hierarchies from noisy data (bottom-up). We introduce CLIMB (CLusterIng-based Multi-agent taxonomy Builder), a framework that fully automates the creation of high-quality, data-driven taxonomies from raw job postings. CLIMB uses global semantic clustering to distill core occupations, then employs a reflection-based multi-agent system to iteratively build a coherent hierarchy. On three diverse, real-world datasets, we show that CLIMB produces taxonomies that are more coherent and scalable than existing methods and successfully capture unique regional characteristics. We release our code and datasets at https://anonymous.4open.science/r/CLIMB.
- Abstract(参考訳): 雇用推薦から労働市場インテリジェンスまで、アプリケーションに不可欠な、堅牢な職業分類の作成は難しい。
手動のキュレーションは遅いが、既存の自動化手法は動的な地域市場(トップダウン)に適応していないか、ノイズの多いデータ(ボットアップ)から一貫性のある階層を構築するのに苦労している。
CLIMB(CLusterIngベースのMulti-agent Taxonomy Builder)は、生ジョブの投稿から高品質なデータ駆動型分類の作成を完全に自動化するフレームワークである。
CLIMBは、グローバルなセマンティッククラスタリングを使用してコアの占有を蒸留し、リフレクションベースのマルチエージェントシステムを使用して、一貫性のある階層を反復的に構築する。
3つの多様な実世界のデータセットから、CLIMBは既存の手法よりも一貫性があり、スケーラブルな分類群を生成し、独自の地域特性を捉えることに成功した。
コードとデータセットはhttps://anonymous.4open.science/r/CLIMBで公開しています。
関連論文リスト
- ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Hierarchical Job Classification with Similarity Graph Integration [5.432179788898068]
伝統的なテキスト分類法は、産業カテゴリーの階層的な性質を完全に活用できないため、しばしば不足する。
本稿では,ジョブや階層型産業カテゴリを潜在的な埋め込み空間に組み込んだ表現学習・分類モデルを提案する。
我々のモデルは,標準職業分類(SOC)システムと社内の階層的分類であるカロテインを統合して,グラフと階層的関係を捉える。
論文 参考訳(メタデータ) (2025-07-14T05:54:57Z) - A Multi-Stage Framework with Taxonomy-Guided Reasoning for Occupation Classification Using Large Language Models [15.361247598837002]
大規模な言語モデル(LLM)は、その豊富な世界知識とコンテキスト内学習能力によって約束される。
本フレームワークは,分類学の知識とアウトプットを整合させることにより性能を向上させるために,分類学指導による推論例を統合した。
大規模データセットの評価から,我々のフレームワークは職業と技能の分類タスクを向上するだけでなく,フロンティアモデルに代わる費用対効果も提供することが示された。
論文 参考訳(メタデータ) (2025-03-17T09:44:50Z) - Federated Class-Incremental Learning: A Hybrid Approach Using Latent Exemplars and Data-Free Techniques to Address Local and Global Forgetting [10.061328213032088]
FCIL(Federated Class-Incremental Learning)とは、動的に変化するクライアントの数が、継続的に増加するタスク数を共同で学習するシナリオを指す。
我々は,局所的およびグローバルな忘れを定式化するFCILの数学的枠組みを開発する。
局所的, グローバルな忘れを解消するために, 潜在例とデータフリー手法を利用したHybrid Rehearsalという手法を提案する。
論文 参考訳(メタデータ) (2025-01-26T01:08:01Z) - Can Large Language Models Serve as Effective Classifiers for Hierarchical Multi-Label Classification of Scientific Documents at Industrial Scale? [1.0562108865927007]
大規模言語モデル(LLM)は、多ラベル分類のような複雑なタスクにおいて大きな可能性を証明している。
これらの課題を克服するために,LLMの強みと高密度検索手法を組み合わせる手法を提案する。
複数の分野にまたがる大規模プリプリントリポジトリであるSSRNにおいて,本手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-12-06T15:51:22Z) - Automatic Bottom-Up Taxonomy Construction: A Software Application Domain Study [6.0158981171030685]
ソフトウェアアプリケーションドメイン分類に関するこれまでの研究は、適切な分類法が欠如しているため、課題に直面してきた。
本研究では,複数のデータソースを統合し,アンサンブル手法を活用することで,包括的ソフトウェアアプリケーション領域分類を開発することを目的とする。
論文 参考訳(メタデータ) (2024-09-24T08:55:07Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。