論文の概要: Characterising LLM-Generated Competency Questions: a Cross-Domain Empirical Study using Open and Closed Models
- arxiv url: http://arxiv.org/abs/2604.16258v1
- Date: Fri, 17 Apr 2026 17:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.022834
- Title: Characterising LLM-Generated Competency Questions: a Cross-Domain Empirical Study using Open and Closed Models
- Title(参考訳): LLM生成能力問題の特徴付け--オープンモデルとクローズドモデルを用いたクロスドメイン実証研究
- Authors: Reham Alharbi, Valentina Tamma, Terry R. Payne, Jacopo de Berardinis,
- Abstract要約: 本稿では,複数次元にわたるコンピテンシー質問(CQ)の体系的比較尺度を提案する。
入力テキストに対する可読性, 関連性, 生成した質問の構造的複雑さなど, それらの顕著な特性を同定する。
- 参考スコア(独自算出の注目度): 0.11363776709575053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Competency Questions (CQs) are a cornerstone of requirement elicitation in ontology engineering. CQs represent requirements as a set of natural language questions that an ontology should satisfy; they are traditionally modelled by ontology engineers together with domain experts as part of a human-centred, manual elicitation process. The use of Generative AI automates CQ creation at scale, therefore democratising the process of generation, widening stakeholder engagement, and ultimately broadening access to ontology engineering. However, given the large and heterogeneous landscape of LLMs, varying in dimensions such as parameter scale, task and domain specialisation, and accessibility, it is crucial to characterise and understand the intrinsic, observable properties of the CQs they produce (e.g., readability, structural complexity) through a systematic, cross-domain analysis. This paper introduces a set of quantitative measures for the systematic comparison of CQs across multiple dimensions. Using CQs generated from well defined use cases and scenarios, we identify their salient properties, including readability, relevance with respect to the input text and structural complexity of the generated questions. We conduct our experiments over a set of use cases and requirements using a range of LLMs, including both open (KimiK2-1T, LLama3.1-8B, LLama3.2-3B) and closed models (Gemini 2.5 Pro, GPT 4.1). Our analysis demonstrates that LLM performance reflects distinct generation profiles shaped by the use case.
- Abstract(参考訳): コンピテンシー質問(コンピテンシー質問、CQ)は、オントロジー工学における要件適用の基礎である。
CQは、オントロジーが満たすべき自然言語の質問のセットとして、要件を表現している。伝統的に、人間中心の手動推論プロセスの一部として、オントロジーエンジニアとドメインエキスパートによってモデル化されている。
Generative AIを使用することで、CQ作成を大規模に自動化し、生成プロセスの民主化、ステークホルダーの関与の拡大、最終的にはオントロジーエンジニアリングへのアクセスの拡大を実現します。
しかし、パラメータスケール、タスクとドメインの特殊化、アクセシビリティといった次元の異なるLLMの大規模で異質な景観を考えると、体系的なクロスドメイン分析を通じて、それらが生成するCQの本質的で観測可能な特性(可読性、構造的複雑さなど)を特徴づけ、理解することが不可欠である。
本稿では,CQを多次元にわたって体系的に比較するための定量的尺度について紹介する。
適切に定義されたユースケースやシナリオから生成されたCQを用いて、入力テキストに対する可読性、関連性、生成した質問の構造的複雑さなど、それらの健全な特性を識別する。
我々は,オープン (KimiK2-1T, LLama3.1-8B, LLama3.2-3B) とクローズドモデル (Gemini 2.5 Pro, GPT 4.1) の両方を含む,LLMの一連のユースケースと要件について実験を行った。
分析の結果,LLMの性能はユースケースによって形成される異なる生成プロファイルを反映していることがわかった。
関連論文リスト
- A Comparative Study of Competency Question Elicitation Methods from Ontology Requirements [0.22499166814992444]
本稿では,3つの異なるCQ定式化手法の実証評価を行った。
文化遺産の要件セットから,それぞれのアプローチを用いてCQを生成する。
受け入れ可能性、あいまいさ、妥当性、複雑さ、可読性など、さまざまな側面でそれらを評価します。
論文 参考訳(メタデータ) (2025-07-01T14:49:30Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Contextualize-then-Aggregate: Circuits for In-Context Learning in Gemma-2 2B [51.74607395697567]
In-Context Learning (ICL)は、大規模言語モデル(LLM)の興味深い能力である。
我々は5つの自然主義ICLタスクに対してGemma-2 2Bにおける情報フローを因果介入を用いて同定する。
このモデルでは,2段階戦略を用いてタスク情報を推論し,コンテキスト化-then-aggregateと呼ぶ。
論文 参考訳(メタデータ) (2025-03-31T18:33:55Z) - Ontology Generation using Large Language Models [1.0037949839020768]
本稿では, メモリレスCQbyCQとOntogeniaという, 自動オントロジー開発のための2つの新しいプロンプト技術を紹介し, 評価する。
OpenAI o1-preview with Ontogeniaはエンジニアの要求を満たすのに十分な品質を提供する。
論文 参考訳(メタデータ) (2025-03-07T13:03:28Z) - A RAG Approach for Generating Competency Questions in Ontology Engineering [1.0044270899550196]
LLM(Large Language Models)の出現により、このプロセスの自動化と強化が可能になった。
本稿では,LLMを用いてCQの自動生成を行うRAG(Research-augmented Generation)手法を提案する。
2つのドメインエンジニアリングタスクで GPT-4 を用いて実験を行い、ドメインの専門家が構築した地味な CQ と比較する。
論文 参考訳(メタデータ) (2024-09-13T13:34:32Z) - An Experiment in Retrofitting Competency Questions for Existing
Ontologies [0.0]
公理とともにCQを検査することは、CQのスコープと適用性に関する重要な洞察を提供する。
CQは工学的手法の大多数に不可欠なものであるが、工芸品とともにCQを出版する実践は広くは観察されていない。
論文 参考訳(メタデータ) (2023-11-09T08:57:39Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。