論文の概要: Leveraging LLMs For Turkish Skill Extraction
- arxiv url: http://arxiv.org/abs/2601.22885v1
- Date: Fri, 30 Jan 2026 12:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.423213
- Title: Leveraging LLMs For Turkish Skill Extraction
- Title(参考訳): トルコのスキル抽出のためのLLMの活用
- Authors: Ezgi Arslan İltüzer, Özgür Anıl Özlü, Vahid Farajijobehdar, Gülşen Eryiğit,
- Abstract要約: 本稿では,Large Language Models(LLMs)を用いたトルコ初のスキル抽出データセットと自動スキル抽出の性能評価について紹介する。
LLMの使用は、エンドツーエンドパイプラインで使用する場合、教師付きシーケンスラベリングよりも優れており、抽出されたスパンとESCO分類の標準化されたスキルをより効果的に調整する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Skill extraction is a critical component of modern recruitment systems, enabling efficient job matching, personalized recommendations, and labor market analysis. Despite Türkiye's significant role in the global workforce, Turkish, a morphologically complex language, lacks both a skill taxonomy and a dedicated skill extraction dataset, resulting in underexplored research in skill extraction for Turkish. This article seeks the answers to three research questions: 1) How can skill extraction be effectively performed for this language, in light of its low resource nature? 2)~What is the most promising model? 3) What is the impact of different Large Language Models (LLMs) and prompting strategies on skill extraction (i.e., dynamic vs. static few-shot samples, varying context information, and encouraging causal reasoning)? The article introduces the first Turkish skill extraction dataset and performance evaluations of automated skill extraction using LLMs. The manually annotated dataset contains 4,819 labeled skill spans from 327 job postings across different occupation areas. The use of LLM outperforms supervised sequence labeling when used in an end-to-end pipeline, aligning extracted spans with standardized skills in the ESCO taxonomy more effectively. The best-performing configuration, utilizing Claude Sonnet 3.7 with dynamic few-shot prompting for skill identification, embedding-based retrieval, and LLM-based reranking for skill linking, achieves an end-to-end performance of 0.56, positioning Turkish alongside similar studies in other languages, which are few in the literature. Our findings suggest that LLMs can improve skill extraction performance in low-resource settings, and we hope that our work will accelerate similar research on skill extraction for underrepresented languages.
- Abstract(参考訳): スキル抽出は、効率的な雇用マッチング、パーソナライズされたレコメンデーション、労働市場分析を可能にする、現代の採用システムにおいて重要な要素である。
テュルキーのグローバルな労働力における重要な役割にもかかわらず、形態学的に複雑な言語であるトルコは、スキル分類学と専門的なスキル抽出データセットの両方を欠いている。
1) 低資源性を考慮して,この言語でどのようにスキル抽出を効果的に行うことができるか。
2)~最も有望なモデルは何ですか?
3) 異なる言語モデル(LLM)とスキル抽出戦略(動的対静的ショットサンプル,コンテキスト情報の変化,因果推論の促進など)の影響はどのようなものか?
本稿では,LLMを用いたトルコ初のスキル抽出データセットと自動スキル抽出の性能評価について紹介する。
手動でアノテートしたデータセットには、異なる職業領域にまたがる327のジョブポストから4,819のラベル付きスキルスパンが含まれている。
LLMの使用は、エンドツーエンドパイプラインで使用する場合、教師付きシーケンスラベリングよりも優れており、抽出されたスパンとESCO分類の標準化されたスキルをより効果的に調整する。
Claude Sonnet 3.7 を利用した最高のパフォーマンス構成は、スキル識別、埋め込みベースの検索、LLMベースのスキルリンクのランク付けを動的に行うことで、エンドツーエンドのパフォーマンスが 0.56 に達し、トルコ語が他の言語で同様の研究と並んでいるが、文献にはほとんどない。
この結果から,LLMは低リソース環境でのスキル抽出性能を向上できる可能性が示唆された。
関連論文リスト
- EMCee: Improving Multilingual Capability of LLMs via Bridging Knowledge and Reasoning with Extracted Synthetic Multilingual Context [6.612630497074871]
大規模言語モデル(LLM)は、広範囲のタスクで目覚ましい進歩を遂げました。
英語中心のトレーニングデータに大きく依存すると、非英語言語ではパフォーマンスが大幅に低下する。
本稿では,クエリ関連知識を明示的に抽出し,活用することにより,LLMの多言語機能を向上させるフレームワークであるEMCeeを提案する。
論文 参考訳(メタデータ) (2025-03-07T06:05:34Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Extracting and Combining Abilities For Building Multi-lingual Ability-enhanced Large Language Models [109.60937659029076]
我々は,MAEC という名称の多言語抽出と組み合わせ手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験の結果,MAECは高度能力の抽出と組み合わせを効果的に効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Extreme Multi-Label Skill Extraction Training using Large Language
Models [19.095612333241288]
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
以上の結果より,textitR-Precision@5では15~25ポイントの連続的な増加が見られた。
論文 参考訳(メタデータ) (2023-07-20T11:29:15Z) - Large Language Models as Batteries-Included Zero-Shot ESCO Skills
Matchers [0.0]
大規模言語モデル(LLM)に基づくジョブ記述からスキル抽出のためのエンドツーエンドゼロショットシステムを提案する。
ESCOのスキル全体に関する総合的なトレーニングデータを生成し,求職者からのスキル言及を抽出するために分類器を訓練する。
また、類似性検索を用いてスキル候補を生成し、第2のLCMを用いて再ランク付けする。
論文 参考訳(メタデータ) (2023-07-07T12:04:12Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Knowledge-Rich BERT Embeddings for Readability Assessment [0.0]
本稿では,BERTモデルの情報豊富な埋め込みを共同学習手法により活用する方法を提案する。
提案手法は,英語とフィリピン語のデータセットを用いた可読性評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-15T07:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。