論文の概要: VSPO: Validating Semantic Pitfalls in Ontology via LLM-Based CQ Generation
- arxiv url: http://arxiv.org/abs/2511.07991v2
- Date: Tue, 18 Nov 2025 04:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.49069
- Title: VSPO: Validating Semantic Pitfalls in Ontology via LLM-Based CQ Generation
- Title(参考訳): VSPO: LLMベースのCQ生成によるオントロジーにおける意味的落とし穴の検証
- Authors: Hyojun Choi, Seokju Hwang, Kyong-Ho Lee,
- Abstract要約: 本研究は,大規模言語モデル(LLM)を用いたCQ生成におけるセマンティックバリデーションを目標とした最初の試みである。
本モデルでは,GPT-4.1よりも26%高い精度で28.2%高いリコール率を示し,落とし穴検証のためのCQを生成する。
- 参考スコア(独自算出の注目度): 4.789422182532788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Competency Questions (CQs) play a crucial role in validating ontology design. While manually crafting CQs can be highly time-consuming and costly for ontology engineers, recent studies have explored the use of large language models (LLMs) to automate this process. However, prior approaches have largely evaluated generated CQs based on their similarity to existing datasets, which often fail to verify semantic pitfalls such as "Misusing allValuesFrom". Since such pitfalls cannot be reliably detected through rule-based methods, we propose a novel dataset and model of Validating Semantic Pitfalls in Ontology (VSPO) for CQ generation specifically designed to verify the semantic pitfalls. To simulate missing and misused axioms, we use LLMs to generate natural language definitions of classes and properties and introduce misalignments between the definitions and the ontology by removing axioms or altering logical operators (e.g., substituting union with intersection). We then fine-tune LLaMA-3.1-8B-Instruct to generate CQs that validate these semantic discrepancies between the provided definitions and the corresponding axioms. The resulting CQs can detect a broader range of modeling errors compared to existing public datasets. Our fine-tuned model demonstrates superior performance over baselines, showing 26% higher precision and 28.2% higher recall than GPT-4.1 in generating CQs for pitfall validation. This research enables automatic generation of TBox-validating CQs using LLMs, significantly reducing manual effort while improving semantic alignment between ontologies and expert knowledge. To the best of our knowledge, this is the first study to target semantic pitfall validation in CQ generation using LLMs.
- Abstract(参考訳): コンピテンシー質問(CQ)は、オントロジー設計を検証する上で重要な役割を果たす。
CQを手作業で作成することは、オントロジーエンジニアにとって非常に時間がかかりコストがかかるが、最近の研究では、このプロセスを自動化するために大きな言語モデル(LLM)を使用することが検討されている。
しかしながら、以前のアプローチでは、既存のデータセットと類似性に基づいて生成されたCQを概ね評価しており、"Misusing allValuesFrom"のようなセマンティックな落とし穴の検証に失敗することが多い。
このような落とし穴はルールベースの手法では確実に検出できないため、セマンティック・落とし穴の検証に特化して設計されたCQ生成のためのセマンティック・落とし穴をオントロジー(VSPO)で検証する新しいデータセットとモデルを提案する。
不足公理と誤用公理をシミュレートするために、LLMを用いてクラスとプロパティの自然言語定義を生成し、公理を除去したり、論理演算子を交叉に置換したりすることで、定義とオントロジーの相違を導入する。
次に、LLaMA-3.1-8B-インストラクションを微調整して、提供された定義と対応する公理との間のこれらの意味的不一致を検証するCQを生成する。
結果として得られたCQは、既存の公開データセットと比較して幅広いモデリングエラーを検出することができる。
我々の微調整モデルではベースラインよりも優れた性能を示し、26%の精度と28.2%のリコールがGPT-4.1より優れ、落とし穴検証のためのCQを生成する。
本研究は, LLMを用いたTBox検証CQの自動生成を可能にし, オントロジーとエキスパート知識のセマンティックアライメントを改善しつつ手作業を大幅に削減する。
我々の知る限りでは、LLMを用いたCQ生成における意味的な落とし穴の検証を目標とする最初の研究である。
関連論文リスト
- CCQA: Generating Question from Solution Can Improve Inference-Time Reasoning in SLMs [14.97707719362011]
textbfQuestion textbfAnswering (CCQA)におけるtextbfCycle-textbf一貫性を提案する。
CCQAは、サイクル一貫性に着想を得て、各推論経路から質問を生成し、それぞれが元の質問と類似度で評価し、次に、最も類似度の高い候補解を最終応答として選択する。
CCQAは数学および常識推論ベンチマークにおいて8つのモデルで既存の最先端(SOTA)手法を一貫して上回っていることが確認された。
論文 参考訳(メタデータ) (2025-09-23T02:01:03Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Critical Questions Generation: Motivation and Challenges [6.0158981171030685]
本稿では,議論文を処理し,それによる批判的な質問を生成する新しいタスクを提案する。
議論理論において、CQは、欠落している可能性のある情報を指差して、議論の盲点を埋めるように設計されたツールである。
LLMを用いたCQs生成の研究には,大規模な実験のための参照データセットが必要である。
論文 参考訳(メタデータ) (2024-10-18T09:46:38Z) - VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers [7.7705926659081275]
VerifierQは、オフラインQ学習を検証モデルに統合する新しいアプローチである。
LLMにQ-learningを適用する上での3つの課題に対処する。
本手法は,並列Q値計算と学習効率の向上を実現する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - LLMs for Test Input Generation for Semantic Caches [1.8628177380024746]
大規模言語モデル(LLM)は、最先端のセマンティック機能をソフトウェアシステムに追加することを可能にする。
規模によっては、何千ものユーザーへのサービス提供コストは、ユーザーエクスペリエンスにも大きく影響します。
本稿では、構造化されていない文書から類似した質問を生成するテスト入力生成にLLMを使用するアプローチであるVaryGenを提案する。
論文 参考訳(メタデータ) (2024-01-16T06:16:33Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。