論文の概要: Ontology-Aligned Embeddings for Data-Driven Labour Market Analytics
- arxiv url: http://arxiv.org/abs/2509.04942v1
- Date: Fri, 05 Sep 2025 09:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.544394
- Title: Ontology-Aligned Embeddings for Data-Driven Labour Market Analytics
- Title(参考訳): データ駆動型労働市場分析のためのオントロジー指向の埋め込み
- Authors: Heinke Hihn, Dennis A. V. Dittrich, Carl Jeske, Cayo Costa Sobral, Helio Pais, Timm Lochmann,
- Abstract要約: 我々は,自由形ドイツ語の肩書きを,ドイツ語のKlassifikation der Berufeと国際教育標準分類という2つの語彙に結びつける埋め込み型アライメントプロセスを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The limited ability to reason across occupational data from different sources is a long-standing bottleneck for data-driven labour market analytics. Previous research has relied on hand-crafted ontologies that allow such reasoning but are computationally expensive and require careful maintenance by human experts. The rise of language processing machine learning models offers a scalable alternative by learning shared semantic spaces that bridge diverse occupational vocabularies without extensive human curation. We present an embedding-based alignment process that links any free-form German job title to two established ontologies - the German Klassifikation der Berufe and the International Standard Classification of Education. Using publicly available data from the German Federal Employment Agency, we construct a dataset to fine-tune a Sentence-BERT model to learn the structure imposed by the ontologies. The enriched pairs (job title, embedding) define a similarity graph structure that we can use for efficient approximate nearest-neighbour search, allowing us to frame the classification process as a semantic search problem. This allows for greater flexibility, e.g., adding more classes. We discuss design decisions, open challenges, and outline ongoing work on extending the graph with other ontologies and multilingual titles.
- Abstract(参考訳): 異なるソースからの職種データを分析できる能力は、データ駆動型労働市場分析の長年のボトルネックである。
これまでの研究は手作りのオントロジーに頼っていた。そのような推論は可能だが、計算に高価であり、人間の専門家による注意深いメンテナンスを必要としている。
言語処理機械学習モデルの台頭は、広範な人間のキュレーションなしに様々な職業語彙をブリッジする共有意味空間を学習することで、スケーラブルな代替手段を提供する。
我々は,自由形式のドイツの職種を,ドイツ・クラシフィケーション・デル・ベルフ(Klassifikation der Berufe)と国際教育標準分類(International Standard Classification of Education)の2つの確立したオントロジーに結びつける埋め込み型アライメントプロセスを提案する。
ドイツ連邦雇用機関(Federal Employment Agency)の公開データを用いて、Sentence-BERTモデルを微調整し、オントロジーによって課される構造を学習するためのデータセットを構築する。
拡張されたペア(ジョブタイトル、埋め込み)は類似性グラフ構造を定義し、より効率的な近似近傍探索のために使用することができ、セマンティック検索問題として分類プロセスをフレーム化することができる。
これにより、クラスの追加など、柔軟性が向上する。
設計決定、オープン課題について論じ、グラフを他のオントロジーや多言語タイトルで拡張する作業について概説する。
関連論文リスト
- Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples [38.18495961129682]
本稿では,大規模セマンティックコーパスを必要としない新たな言語間探索タスクを提案する。
これは、大きな言語モデルによって生成される障害に挑戦するよりも、真の並列文を言語横断的にランク付けするモデルの能力に焦点を当てている。
ニュースドメインにおける言語対であるドイツ語とフランス語のCLSDタスクのケーススタディを作成します。
論文 参考訳(メタデータ) (2025-02-12T18:54:37Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment via Neighborhood Partitioning and Generative Subgraph Encoding [39.67113788660731]
グラフ対応LAnguage Models (GLaM) を開発するためのフレームワークを紹介する。
特定のグラフに基づく知識でモデルを構築することは、構造に基づく推論のためのモデルの能力を拡張することを実証する。
論文 参考訳(メタデータ) (2024-02-09T19:53:29Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Hierarchical Classification of Transversal Skills in Job Ads Based on
Sentence Embeddings [0.0]
本稿では,求人広告要件とスキルセットの相関関係をディープラーニングモデルを用いて同定することを目的とする。
このアプローチには、ESCO(European Skills, Competences, Occupations)分類を使用したデータ収集、事前処理、ラベル付けが含まれる。
論文 参考訳(メタデータ) (2024-01-10T11:07:32Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - An Exploratory Study on Utilising the Web of Linked Data for Product
Data Mining [3.7376948366228175]
この研究は、構造化されたデータを利用して、製品分類とリンクに使用される言語リソースを作成する方法を研究するためのeコマース領域に焦点を当てている。
我々は、数億の構造化されたデータポイントをRDF n-quadsの形で処理し、後に言語リソースを作成するために3つの異なる方法で使用される製品関連コーパスの数十万ワードを作成します。
評価の結果,単語の埋め込みは両タスクの精度を向上させる上で最も信頼性が高く一貫した手法であることが示唆された。
論文 参考訳(メタデータ) (2021-09-03T09:58:36Z) - Exploring Scholarly Data by Semantic Query on Knowledge Graph Embedding Space [5.647577824219207]
近年、知識グラフは異質な実体とその関係に関する知識を表現する普遍的なデータ形式として出現している。
知識グラフ埋め込み空間のセマンティック構造は十分に研究されていないので、知識グラフ埋め込み法は通常知識グラフ補完にのみ使用される。
本稿では,これらの意味構造を単語埋め込み空間に基づいて解析し,データ探索を支援することを提案する。
論文 参考訳(メタデータ) (2019-09-17T04:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。