論文の概要: Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs
- arxiv url: http://arxiv.org/abs/2510.11313v1
- Date: Mon, 13 Oct 2025 12:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.35069
- Title: Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs
- Title(参考訳): スキルの自動化 - 専門的なオントロジー - 粒度ギャップをLLMで埋める
- Authors: Le Ngoc Luyen, Marie-Hélène Abel,
- Abstract要約: 本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper investigates automated skill decomposition using Large Language Models (LLMs) and proposes a rigorous, ontology-grounded evaluation framework. Our framework standardizes the pipeline from prompting and generation to normalization and alignment with ontology nodes. To evaluate outputs, we introduce two metrics: a semantic F1-score that uses optimal embedding-based matching to assess content accuracy, and a hierarchy-aware F1-score that credits structurally correct placements to assess granularity. We conduct experiments on ROME-ESCO-DecompSkill, a curated subset of parents, comparing two prompting strategies: zero-shot and leakage-safe few-shot with exemplars. Across diverse LLMs, zero-shot offers a strong baseline, while few-shot consistently stabilizes phrasing and granularity and improves hierarchy-aware alignment. A latency analysis further shows that exemplar-guided prompts are competitive - and sometimes faster - than unguided zero-shot due to more schema-compliant completions. Together, the framework, benchmark, and metrics provide a reproducible foundation for developing ontology-faithful skill decomposition systems.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を用いた自動スキル分解について検討し,厳密なオントロジーに基づく評価フレームワークを提案する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
アウトプットを評価するために,コンテンツ精度を評価するために最適な埋め込みベースのマッチングを利用するセマンティックF1スコアと,粒度を評価するために構造的に正しい配置を信用する階層型F1スコアという2つの指標を導入する。
我々は、親のキュレートされたサブセットであるROM-ESCO-DecompSkillの実験を行い、ゼロショットとリークセーフの2つのプロンプト戦略を比較した。
多様なLLM全体にわたって、ゼロショットは強力なベースラインを提供するが、少数ショットはフレージングと粒度を一貫して安定させ、階層認識アライメントを改善している。
遅延解析により、典型的な誘導プロンプトは、スキーマ準拠の補完がより多いため、無誘導のゼロショットよりも競争力があり、時には高速であることが示された。
フレームワーク、ベンチマーク、メトリクスは、オントロジーに忠実なスキル分解システムを開発するための再現可能な基盤を提供する。
関連論文リスト
- CRACQ: A Multi-Dimensional Approach To Automated Document Assessment [0.0]
CRACQは、コヒーレンス、リゴール、適切性、完全性、品質といった、f i v e特有の特性で文書を評価するのに適した多次元評価フレームワークである。
言語的、意味的、構造的なシグナルを累積評価に統合し、全体的および特性レベルの分析を可能にする。
論文 参考訳(メタデータ) (2025-09-26T17:01:54Z) - TopoSizing: An LLM-aided Framework of Topology-based Understanding and Sizing for AMS Circuits [7.615431299673158]
従来のブラックボックス最適化はサンプリング効率を実現するが、回路理解に欠ける。
提案するTopoSizeは、生のネットリストから直接、堅牢な回路理解を行うエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-09-17T16:52:46Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - PRGB Benchmark: A Robust Placeholder-Assisted Algorithm for Benchmarking Retrieval-Augmented Generation [15.230902967865925]
Retrieval-Augmented Generation (RAG)は、外部知識を統合することで、大規模言語モデル(LLM)を強化する。
現在のベンチマークでは、ノイズの堅牢性などの幅広い側面を強調しているが、文書利用に関する体系的できめ細かい評価フレームワークは欠如している。
我々のベンチマークは、より信頼性が高く効率的なRAGシステムを開発するための再現可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-23T16:14:08Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - LGAI-EMBEDDING-Preview Technical Report [41.68404082385825]
本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。
提案手法は,コンテキスト認識の埋め込みを生成するために,コンテキスト内学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせる。
その結果,本手法はボルダスコアによる最高性能モデルのうち,強い一般化とランクを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-06-09T05:30:35Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。