論文の概要: Bench4KE: Benchmarking Automated Competency Question Generation
- arxiv url: http://arxiv.org/abs/2505.24554v2
- Date: Wed, 04 Jun 2025 09:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.488122
- Title: Bench4KE: Benchmarking Automated Competency Question Generation
- Title(参考訳): Bench4KE: 自動コンピテンシー質問生成のベンチマーク
- Authors: Anna Sofia Lippolis, Minh Davide Ragagni, Paolo Ciancarini, Andrea Giovanni Nuzzolese, Valentina Presutti,
- Abstract要約: Bench4KEは知識エンジニアリング自動化のためのAPIベースのベンチマークシステムである。
実世界の4つのオントロジープロジェクトのCQデータセットからなるキュレートされたゴールド標準を提供する。
これは、生成されたCQの品質を評価するために、一連の類似度メトリクスを使用する。
- 参考スコア(独自算出の注目度): 1.2512982702508668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of Large Language Models (LLMs) presents a unique opportunity to reinvigorate research on Knowledge Engineering (KE) automation, a trend already evident in recent efforts developing LLM-based methods and tools for the automatic generation of Competency Questions (CQs). However, the evaluation of these tools lacks standardisation. This undermines the methodological rigour and hinders the replication and comparison of results. To address this gap, we introduce Bench4KE, an extensible API-based benchmarking system for KE automation. Its first release focuses on evaluating tools that generate CQs automatically. CQs are natural language questions used by ontology engineers to define the functional requirements of an ontology. Bench4KE provides a curated gold standard consisting of CQ datasets from four real-world ontology projects. It uses a suite of similarity metrics to assess the quality of the CQs generated. We present a comparative analysis of four recent CQ generation systems, which are based on LLMs, establishing a baseline for future research. Bench4KE is also designed to accommodate additional KE automation tasks, such as SPARQL query generation, ontology testing and drafting. Code and datasets are publicly available under the Apache 2.0 license.
- Abstract(参考訳): LLM(Large Language Models)の可用性は、知識工学(KE)自動化の研究を再活性化するユニークな機会を提供する。
しかし、これらのツールの評価には標準化が欠如している。
これにより、方法論的な厳密さが損なわれ、結果の複製と比較を妨げる。
このギャップに対処するために、KE自動化のための拡張可能なAPIベースのベンチマークシステムであるBench4KEを紹介します。
最初のリリースでは、CQを自動的に生成するツールの評価に重点を置いている。
CQは、オントロジーエンジニアがオントロジーの機能要件を定義するために使用する自然言語の質問である。
Bench4KEは、4つの現実世界のオントロジープロジェクトのCQデータセットからなるキュレートされたゴールド標準を提供する。
これは、生成されたCQの品質を評価するために、一連の類似度メトリクスを使用する。
我々は,LLMをベースとした最近の4つのCQ生成システムの比較分析を行い,今後の研究のベースラインを確立する。
Bench4KEはまた、SPARQLクエリ生成、オントロジーテスト、ドラフトなど、追加のKE自動化タスクに対応するように設計されている。
コードとデータセットはApache 2.0ライセンスで公開されている。
関連論文リスト
- AMAQA: A Metadata-based QA Dataset for RAG Systems [7.882922366782987]
AMAQAは、テキストとメタデータを組み合わせたタスクを評価するために設計された、新しいオープンアクセスQAデータセットである。
AMAQAには26の公開Telegramグループから集められた約1100万の英語メッセージが含まれている。
メタデータを活用することで精度が0.12から0.61に向上し、構造化コンテキストの価値が強調される。
論文 参考訳(メタデータ) (2025-05-19T08:59:08Z) - Architecture for a Trustworthy Quantum Chatbot [0.0]
この記事では、いくつかの機能拡張を提供するC4Qの最新バージョン(2.0)について説明する。
C4Q 2.0 の分類 LLM はほぼ完全である。
この評価は、C4Q 2.0の保守性と正確性を強調する3つの既存のチャットボットによる比較研究から成っている。
論文 参考訳(メタデータ) (2025-03-06T16:43:23Z) - iTRI-QA: a Toolset for Customized Question-Answer Dataset Generation Using Language Models for Enhanced Scientific Research [1.2411445143550854]
本稿では,iTRI (Interactive Trained Research Innovator) - QA (Interactive Trained Research Innovator) と呼ばれる,カスタマイズされた質問応答(QA)データセットの開発のためのツールを提案する。
提案手法は,キュレートされたQAデータセットと特殊な研究論文データセットを統合し,微調整されたLMを用いて応答の文脈的関連性と精度を向上させる。
このパイプラインは動的でドメイン固有のQAシステムを提供し、将来のLMデプロイメントに適用される。
論文 参考訳(メタデータ) (2025-01-27T23:38:39Z) - Discerning and Characterising Types of Competency Questions for Ontologies [0.4757470449749875]
コンピテンシー質問(CQ)は、スコーピングや検証の段階を導くことで、オントロジー開発に広く使われている。
CQの定式化や良質なCQの評価には極めて限定的なガイダンスがあり、曖昧さや使用不能な定式化といった問題に繋がる。
本論は, 課題の多様さ, 利用状況, 開発課題の多様さを分析し, 理論的基礎に寄与する。
論文 参考訳(メタデータ) (2024-12-18T10:26:29Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - PrimeQA: The Prime Repository for State-of-the-Art Multilingual Question
Answering Research and Development [24.022050096797606]
PRIMEQAは、QAの再調査を民主化し、最先端(SOTA)QAメソッドの複製を容易にすることを目的とした、ワンストップのQAレポジトリである。
検索や読解といったコアQA機能と,質問生成などの補助機能をサポートする。
フロントエンドアプリケーションの構築、pub-licベンチマーク上のSOTAメソッドの複製、既存のメソッドの拡張など、さまざまなユースケースのためのエンドツーエンドツールキットとして設計されている。
論文 参考訳(メタデータ) (2023-01-23T20:43:26Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - Retrieving and Reading: A Comprehensive Survey on Open-domain Question
Answering [62.88322725956294]
OpenQAの最近の研究動向を概観し、特にニューラルMSC技術を導入したシステムに注目した。
Retriever-Reader' と呼ばれる最新の OpenQA アーキテクチャを導入し、このアーキテクチャに従うさまざまなシステムを分析します。
次に、OpenQAシステムの開発における主要な課題について議論し、一般的に使用されるベンチマークの分析を提供する。
論文 参考訳(メタデータ) (2021-01-04T04:47:46Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。