論文の概要: T2S-Metrics: Unified Library for Evaluating SPARQL Queries Generated From Natural Language
- arxiv url: http://arxiv.org/abs/2604.26971v1
- Date: Wed, 22 Apr 2026 08:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.682606
- Title: T2S-Metrics: Unified Library for Evaluating SPARQL Queries Generated From Natural Language
- Title(参考訳): T2S-Metrics:自然言語から生成されたSPARQLクエリを評価する統一ライブラリ
- Authors: Yousouf Taghzouti, Tao Jiang, Camille Juigné, Benjamin Navet, Fabien Gandon, Franck Michel, Louis-Felix Nothias,
- Abstract要約: SPARQLに基づく評価に特化して設計されたオープンソースの統一評価ライブラリであるt2s-metricsを提案する。
t2s-metricsは、文献や実践的な評価ニーズから収集された、20以上の評価指標の幅広いセットを提供する。
我々は t2s-metrics が知識グラフに対する質問応答において, 体系的, 標準化された評価に向けた必要なステップであると主張している。
- 参考スコア(独自算出の注目度): 3.0216239385077572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of Question Answering (QA) systems over Knowledge Graphs has historically suffered from fragmentation, inconsistency, and limited reproducibility. While significant progress has been made in semantic parsing and SPARQL query generation, evaluation methodologies remain diverse, ad hoc, and often incomparable across studies. Existing benchmarks typically focus on a small subset of metrics, such as query exact match or answer-level F1, neglecting syntactic validity, semantic faithfulness, execution correctness, results ranking quality, and computational efficiency. In this paper, we present t2s-metrics, an open-source, extensible, and unified evaluation library designed specifically for SPARQL query comparison and execution-based assessment. t2s-metrics provides a broad and extensible set of over 20 evaluation metrics, collected from the literature and practical evaluation needs, spanning lexical, syntactic, semantic, structural, execution-based and ranking-based dimensions. These include query-based metrics such as token-level Precision, Recall, and F1; BLEU, ROUGE, METEOR, and CodeBLEU variants; variable-normalized metrics (SP-BLEU, SP-F1); graph-and URI-based exact match metrics; as well as answer set-based metrics such as F1-QALD and Jaccard similarity; ranking metrics including MRR, NDCG, P@k, and Hit@k; and LLM-as-a-Judge metrics. Taking inspiration from the ir-metrics library for Information Retrieval, t2s-metrics provides a modular abstraction layer that decouples metric specification from implementation, enabling consistent, transparent, and reproducible evaluation of SPARQLbased QA systems. We argue that t2s-metrics constitutes a necessary step toward systematic, standardized evaluation in question answering over knowledge graphs and facilitates deeper diagnostic insights into system behavior beyond answer correctness.
- Abstract(参考訳): 知識グラフに対する質問応答(QA)システムの評価は、歴史的に断片化、矛盾、再現性に悩まされてきた。
セマンティック解析とSPARQLクエリ生成において大きな進歩があったが、評価手法は多様であり、アドホックであり、研究全体では相容れないことが多い。
既存のベンチマークでは、クエリの正確な一致や回答レベルのF1、構文的妥当性、意味的忠実性、実行の正確性、結果のランク付け品質、計算効率など、いくつかの指標に重点を置いている。
本稿では,SPARQLクエリ比較と実行ベースアセスメントに特化して設計されたオープンソースで拡張性があり,統一された評価ライブラリであるt2s-metricsを提案する。
t2s-metricsは、文学的、構文的、意味論的、構造的、実行ベース、ランキングに基づく、20以上の評価指標の広範かつ拡張可能なセットを提供する。
トークンレベルの精度、リコール、F1、BLEU、ROUGE、METEOR、CodeBLEUなどのクエリベースのメトリクス、変数正規化メトリクス(SP-BLEU、SP-F1)、グラフおよびURIベースの正確なマッチングメトリクス、F1-QALDやJaccardのような回答セットベースのメトリクス、MRR、NDCG、P@k、Hit@kといったランキングメトリクス、LLM-as-a-Judgeメトリクスなどである。
情報検索のためのir-metricsライブラリからインスピレーションを得て、t2s-metricsは、実装からメトリック仕様を分離し、SPARQLベースのQAシステムの一貫性、透過性、再現性を備えた評価を可能にするモジュラー抽象化層を提供する。
我々は,t2s-metricsが知識グラフよりも解答の体系的,標準化された評価に向けた必要なステップであり,解答の正確性を超えたシステム行動のより深い診断的洞察を促進することを論じている。
関連論文リスト
- VegaChat: A Robust Framework for LLM-Based Chart Generation and Assessment [1.8549313085249322]
本稿では,自然言語から宣言的視覚化を生成し,検証し,評価するフレームワークであるVegaChatを紹介する。
LLMを起動することなく仕様レベルの類似度を測定する決定論的計量であるSpec Scoreと、ライブラリに依存しない画像ベース計量であるVision Scoreの2つの相補的な指標を提案する。
VegaChatは、無効または空のヴィジュアライゼーションのほぼゼロの速度を達成する一方、Spec ScoreとVision Scoreは、人間の判断と強い相関を示す。
論文 参考訳(メタデータ) (2026-01-21T19:02:11Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - FIRESPARQL: A LLM-based Framework for SPARQL Query Generation over Scholarly Knowledge Graphs [0.5120567378386615]
我々は、RAGとSPARQLクエリ修正層を介してオプションコンテキストで、微調整LDMをコアコンポーネントとしてサポートするモジュラーフレームワークを提案する。
BLEUとROUGEのメトリクスを用いてクエリ精度を測定し、緩和された正確なマッチング(RelaxedEM)を用いてクエリ結果の精度を測定する。
実験結果から,クエリの精度は0.90 ROUGE-L,テストセットの精度は0.85 RelaxedEMに達した。
論文 参考訳(メタデータ) (2025-08-14T09:08:50Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。