論文の概要: Jackal: A Real-World Execution-Based Benchmark Evaluating Large Language Models on Text-to-JQL Tasks
- arxiv url: http://arxiv.org/abs/2509.23579v1
- Date: Sun, 28 Sep 2025 02:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.301522
- Title: Jackal: A Real-World Execution-Based Benchmark Evaluating Large Language Models on Text-to-JQL Tasks
- Title(参考訳): Jackal: テキストからJQLタスク上の大規模言語モデルを評価する実世界の実行ベースベンチマーク
- Authors: Kevin Frank, Anmol Gulati, Elias Lumer, Sindy Campagna, Vamse Kumar Subbiah,
- Abstract要約: 自然言語クエリをJira JQLにマッピングするための、オープンで実世界の実行ベースのベンチマークはありません。
検証済みのJQLクエリとペアリングされた10万の自然言語(NL)リクエストと、20万以上の問題のあるライブJiraインスタンス上での実行ベースの結果からなる、新しい大規模テキスト・トゥ・JQLベンチマークであるJackalを紹介した。
パラメータサイズ、オープンおよびクローズドソースモデル、実行精度、正確な一致、正準正則整合を対象とする23大言語モデル(LLM)のテキストからJQL結果について報告する。
- 参考スコア(独自算出の注目度): 0.9374059084973779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise teams rely on the Jira Query Language (JQL) to retrieve and filter issues from Jira. Yet, to our knowledge, there is no open, real-world, execution-based benchmark for mapping natural language queries to JQL. We introduce Jackal, a novel, large-scale text-to-JQL benchmark comprising 100,000 natural language (NL) requests paired with validated JQL queries and execution-based results on a live Jira instance with over 200,000 issues. To reflect real-world usage, each JQL query is associated with four types of user requests: (i) Long NL, (ii) Short NL, (iii) Semantically Similar, and (iv) Semantically Exact. We release Jackal, a corpus of 100,000 text-to-JQL pairs, together with an execution-based scoring toolkit, and a static snapshot of the evaluated Jira instance for reproducibility. We report text-to-JQL results on 23 Large Language Models (LLMs) spanning parameter sizes, open and closed source models, across execution accuracy, exact match, and canonical exact match. In this paper, we report results on Jackal-5K, a 5,000-pair subset of Jackal. On Jackal-5K, the best overall model (Gemini 2.5 Pro) achieves only 60.3% execution accuracy averaged equally across four user request types. Performance varies significantly across user request types: (i) Long NL (86.0%), (ii) Short NL (35.7%), (iii) Semantically Similar (22.7%), and (iv) Semantically Exact (99.3%). By benchmarking LLMs on their ability to produce correct and executable JQL queries, Jackal exposes the limitations of current state-of-the-art LLMs and sets a new, execution-based challenge for future research in Jira enterprise data.
- Abstract(参考訳): 企業チームはJira Query Language(JQL)を使用して、問題の検索とフィルタリングを行っている。
しかし、私たちの知る限り、自然言語クエリをJQLにマッピングするオープンで実世界の実行ベースのベンチマークはありません。
検証済みのJQLクエリとペアリングされた10万の自然言語(NL)リクエストと、20万以上の問題のあるライブJiraインスタンス上での実行ベースの結果からなる、新しい大規模テキスト・トゥ・JQLベンチマークであるJackalを紹介した。
実世界の使い方を反映するために、各JQLクエリは4つのタイプのユーザリクエストに関連付けられている。
(i)ロングNL
(ii)短いNL
(三)意味的に類似、及び
(四)セマンティックエクササイズ。
Jackalは10万のテキスト対JQLのコーパスで、実行ベースのスコアリングツールキットと、評価済みのJiraインスタンスの静的スナップショットを再現性のためにリリースしています。
パラメータサイズ、オープンおよびクローズドソースモデル、実行精度、正確な一致、正準正則整合を対象とする23大言語モデル(LLM)のテキスト対JQL結果について報告する。
本稿では,ジャカルの5,000対のサブセットであるジャカル5Kについて報告する。
Jackal-5Kでは、最高の全体モデル(Gemini 2.5 Pro)が4つのユーザ要求タイプで等しく評価される実行精度は60.3%に過ぎなかった。
パフォーマンスはユーザの要求タイプによって大きく異なります。
(i)長NL(86.0%)
(二)短NL(35.7%)
(三)意味的に類似(22.7%)、及び
(4)Semantically Exact(99.3%)
正しい、実行可能なJQLクエリを生成する能力に基づいてLLMをベンチマークすることにより、Jackalは現在の最先端のLLMの制限を公開し、Jiraエンタープライズデータにおける将来の研究に新たな実行ベースの課題を設定できる。
関連論文リスト
- FIRESPARQL: A LLM-based Framework for SPARQL Query Generation over Scholarly Knowledge Graphs [0.5120567378386615]
我々は、RAGとSPARQLクエリ修正層を介してオプションコンテキストで、微調整LDMをコアコンポーネントとしてサポートするモジュラーフレームワークを提案する。
BLEUとROUGEのメトリクスを用いてクエリ精度を測定し、緩和された正確なマッチング(RelaxedEM)を用いてクエリ結果の精度を測定する。
実験結果から,クエリの精度は0.90 ROUGE-L,テストセットの精度は0.85 RelaxedEMに達した。
論文 参考訳(メタデータ) (2025-08-14T09:08:50Z) - Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。
2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文 参考訳(メタデータ) (2025-07-22T19:23:03Z) - The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
本稿では,検索者の後続のコントラスト学習のためのバックボーンを強化するために,QLの補助的タスクを提案する。
注意ブロック(AB)と文書破壊(DC)の2つの重要なコンポーネントを組み込んだモデルを紹介します。
論文 参考訳(メタデータ) (2025-04-07T16:03:59Z) - NL2KQL: From Natural Language to Kusto Query [1.7931930942711818]
NL2KQLは、大規模言語モデル(LLM)を使用して自然言語クエリ(NLQ)をKusto Query Language(KQL)クエリに変換する革新的なフレームワークである。
NL2KQLのパフォーマンスを検証するために、オンライン(クエリ実行に基づく)とオフライン(クエリ解析に基づく)メトリクスの配列を使用します。
論文 参考訳(メタデータ) (2024-04-03T01:09:41Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。