論文の概要: Large Language Models Assisting Ontology Evaluation
- arxiv url: http://arxiv.org/abs/2507.14552v1
- Date: Sat, 19 Jul 2025 09:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.939227
- Title: Large Language Models Assisting Ontology Evaluation
- Title(参考訳): オントロジー評価を支援する大規模言語モデル
- Authors: Anna Sofia Lippolis, Mohammad Javad Saeedizade, Robin Keskisärkkä, Aldo Gangemi, Eva Blomqvist, Andrea Giovanni Nuzzolese,
- Abstract要約: 機能的要求によるオントロジー評価は、コスト、労働集約、エラーを起こしやすい。
自動および半自動検証によるオントロジー評価を支援する新しいフレームワークであるOE-Assistを紹介する。
- 参考スコア(独自算出の注目度): 1.099532646524593
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ontology evaluation through functional requirements, such as testing via competency question (CQ) verification, is a well-established yet costly, labour-intensive, and error-prone endeavour, even for ontology engineering experts. In this work, we introduce OE-Assist, a novel framework designed to assist ontology evaluation through automated and semi-automated CQ verification. By presenting and leveraging a dataset of 1,393 CQs paired with corresponding ontologies and ontology stories, our contributions present, to our knowledge, the first systematic investigation into large language model (LLM)-assisted ontology evaluation, and include: (i) evaluating the effectiveness of a LLM-based approach for automatically performing CQ verification against a manually created gold standard, and (ii) developing and assessing an LLM-powered framework to assist CQ verification with Prot\'eg\'e, by providing suggestions. We found that automated LLM-based evaluation with o1-preview and o3-mini perform at a similar level to the average user's performance.
- Abstract(参考訳): 能力質問(CQ)検証によるテストのような機能的要件によるオントロジー評価は、オントロジー工学の専門家でさえ、十分に確立されているが、コストがかかり、労働集約的で、エラーを起こしやすい努力である。
本稿では,自動および半自動CQ検証によるオントロジー評価を支援する新しいフレームワークであるOE-Assistを紹介する。
対応するオントロジーとオントロジーのストーリーと組み合わせた1,393のCQのデータセットを提示し、活用することにより、我々の知識への貢献、大規模言語モデル(LLM)を用いたオントロジー評価に関する最初の体系的な研究、そして以下を含む。
i)手作業によるゴールド標準に対するCQ検証を自動実施するためのLCMベースのアプローチの有効性の評価
(2)提案を提供することにより,Prot\'eg\'eによるCQ検証を支援するLLMフレームワークの開発と評価を行う。
その結果,o1-preview と o3-mini を用いた LLM による自動評価は,平均的なユーザのパフォーマンスと同等のレベルで行われることがわかった。
関連論文リスト
- Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models [6.0158981171030685]
批判的質問生成(CQs-Gen)は、システムの前提となる仮定を明らかにする質問生成を可能にすることによって、批判的思考を促進することを目的としている。
この領域への関心が高まっているにもかかわらず、適切なデータセットと自動評価基準の欠如によって進歩が妨げられている。
本稿では,本課題に対するシステムの開発とベンチマークを支援するための包括的アプローチを提案する。
論文 参考訳(メタデータ) (2025-05-16T15:08:04Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - Ontology Generation using Large Language Models [1.0037949839020768]
本稿では, メモリレスCQbyCQとOntogeniaという, 自動オントロジー開発のための2つの新しいプロンプト技術を紹介し, 評価する。
OpenAI o1-preview with Ontogeniaはエンジニアの要求を満たすのに十分な品質を提供する。
論文 参考訳(メタデータ) (2025-03-07T13:03:28Z) - PanguIR Technical Report for NTCIR-18 AEOLLM Task [12.061652026366591]
大規模言語モデル(LLM)はますます重要で、評価が難しい。
手作業の評価は包括的ではあるが、コストが高くリソース集約的であることが多い。
自動評価はスケーラビリティを提供するが、評価基準の制限によって制約される。
論文 参考訳(メタデータ) (2025-03-04T07:40:02Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - PCQA: A Strong Baseline for AIGC Quality Assessment Based on Prompt Condition [4.125007507808684]
本研究では,効果的なAIGC品質評価(QA)フレームワークを提案する。
まず,マルチソースCLIP(Contrastive Language- Image Pre-Training)テキストエンコーダを用いたハイブリッドプロンプト符号化手法を提案する。
第2に,適応したプロンプトと視覚機能を効果的にブレンドするアンサンブルベースの機能ミキサーモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:05:45Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。