論文の概要: Agentic Jackal: Live Execution and Semantic Value Grounding for Text-to-JQL
- arxiv url: http://arxiv.org/abs/2604.09470v1
- Date: Fri, 10 Apr 2026 16:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.961216
- Title: Agentic Jackal: Live Execution and Semantic Value Grounding for Text-to-JQL
- Title(参考訳): Agentic Jackal: Text-to-JQLのライブ実行とセマンティックバリューグラウンド
- Authors: Vishnu Murali, Anmol Gulati, Elias Lumer, Kevin Frank, Sindy Campagna, Vamse Kumar Subbiah,
- Abstract要約: 自然言語をJira Query Language(JQL)にマッピングするためのオープンな実行ベースのベンチマークは存在しない。
Jackalは、20万以上の問題のあるライブJiraインスタンスで10万の検証済みのNL-JQLペアで構成される、最初の大規模実行ベースのテキスト-to-JQLベンチマークである。
- 参考スコア(独自算出の注目度): 1.5773713958458309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translating natural language into Jira Query Language (JQL) requires resolving ambiguous field references, instance-specific categorical values, and complex Boolean predicates. Single-pass LLMs cannot discover which categorical values (e.g., component names or fix versions) actually exist in a given Jira instance, nor can they verify generated queries against a live data source, limiting accuracy on paraphrased or ambiguous requests. No open, execution-based benchmark exists for mapping natural language to JQL. We introduce Jackal, the first large-scale, execution-based text-to-JQL benchmark comprising 100,000 validated NL-JQL pairs on a live Jira instance with over 200,000 issues. To establish baselines on Jackal, we propose Agentic Jackal, a tool-augmented agent that equips LLMs with live query execution via the Jira MCP server and JiraAnchor, a semantic retrieval tool that resolves natural-language mentions of categorical values through embedding-based similarity search. Among 9 frontier LLMs evaluated, single-pass models average only 43.4% execution accuracy on short natural-language queries, highlighting that text-to-JQL remains an open challenge. The agentic approach improves 7 of 9 models, with a 9.0% relative gain on the most linguistically challenging variant; in a controlled ablation isolating JiraAnchor, categorical-value accuracy rises from 48.7% to 71.7%, with component-field accuracy jumping from 16.9% to 66.2%. Our analysis identifies inherent semantic ambiguities, such as issue-type disambiguation and text-field selection, as the dominant failure modes rather than value-resolution errors, pointing to concrete directions for future work. We publicly release the benchmark, all agent transcripts, and evaluation code to support reproducibility.
- Abstract(参考訳): 自然言語をJira Query Language(JQL)に変換するには、あいまいなフィールド参照、インスタンス固有のカテゴリ値、複雑なBoolean述語を解決する必要がある。
シングルパスのLCMでは、あるJiraインスタンスにどのカテゴリ値(コンポーネント名や修正バージョンなど)が存在するのか、あるいは生のデータソースに対して生成されたクエリを検証できないため、パラフレーズまたはあいまいなリクエストの精度が制限される。
自然言語をJQLにマッピングするためのオープンな実行ベースのベンチマークは存在しない。
Jackalは、20万以上の問題のあるライブJiraインスタンスで10万の検証済みのNL-JQLペアで構成される、最初の大規模実行ベースのテキスト-to-JQLベンチマークである。
Jackalのベースラインを確立するために,Jira MCPサーバを介してライブクエリ実行を行うツール拡張エージェントのAgentic Jackalと,埋め込みベースの類似性検索によりカテゴリ値の自然言語参照を解決するセマンティック検索ツールのJiraAnchorを提案する。
9つのフロンティアLCMの評価のうち、シングルパスモデルの平均実行精度は43.4%で、JQLへのテキスト変換は依然としてオープンな課題である。
エージェント的アプローチは9つのモデルのうち7つを改善し、最も言語学的に困難なモデルでは9.0%の相対的な増加を示し、JiraAnchorを分離する制御されたアブレーションでは、カテゴリー値の精度は48.7%から71.7%に上昇し、コンポーネントフィールドの精度は16.9%から66.2%に上昇した。
本分析では,課題型曖昧化やテキストフィールド選択など固有の意味的曖昧さを,値分解誤差よりも優先的な障害モードとして認識し,今後の作業の具体的な方向性を示す。
我々は、再現性をサポートするために、ベンチマーク、すべてのエージェント書き起こし、評価コードを公開した。
関連論文リスト
- Text2GQL-Bench: A Text to Graph Query Language Benchmark [Experiment, Analysis & Benchmark] [16.678372445240957]
Text-to-Graph-Query-Language (Text-to-GQL)システムは、自然言語を実行可能なグラフクエリに変換するトランスレータとして機能する。
既存のデータセットはドメインカバレッジ、グラフクエリ言語のサポート、評価範囲に制限されることが多い。
この制限に対処するために設計されたText-to-GQLベンチマークであるText2GQL-Benchを紹介する。
論文 参考訳(メタデータ) (2026-02-12T09:16:44Z) - Towards Small Language Models for Security Query Generation in SOC Workflows [2.773295737427326]
セキュリティ運用センターのアナリストは、Kusto Query Language(KQL)を使用して、大規模なテレメトリストリームを定期的にクエリする。
適切なKQLを書くには特別な専門知識が必要です。
本稿では,Small Language Models (SLM) が企業セキュリティのために,正確で費用対効果の高い自然言語-KQL翻訳を可能にするかどうかを検討する。
論文 参考訳(メタデータ) (2025-12-07T05:18:27Z) - Jackal: A Real-World Execution-Based Benchmark Evaluating Large Language Models on Text-to-JQL Tasks [0.9374059084973779]
自然言語クエリをJira JQLにマッピングするための、オープンで実世界の実行ベースのベンチマークはありません。
検証済みのJQLクエリとペアリングされた10万の自然言語(NL)リクエストと、20万以上の問題のあるライブJiraインスタンス上での実行ベースの結果からなる、新しい大規模テキスト・トゥ・JQLベンチマークであるJackalを紹介した。
パラメータサイズ、オープンおよびクローズドソースモデル、実行精度、正確な一致、正準正則整合を対象とする23大言語モデル(LLM)のテキストからJQL結果について報告する。
論文 参考訳(メタデータ) (2025-09-28T02:23:22Z) - FIRESPARQL: A LLM-based Framework for SPARQL Query Generation over Scholarly Knowledge Graphs [0.5120567378386615]
我々は、RAGとSPARQLクエリ修正層を介してオプションコンテキストで、微調整LDMをコアコンポーネントとしてサポートするモジュラーフレームワークを提案する。
BLEUとROUGEのメトリクスを用いてクエリ精度を測定し、緩和された正確なマッチング(RelaxedEM)を用いてクエリ結果の精度を測定する。
実験結果から,クエリの精度は0.90 ROUGE-L,テストセットの精度は0.85 RelaxedEMに達した。
論文 参考訳(メタデータ) (2025-08-14T09:08:50Z) - Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。
2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文 参考訳(メタデータ) (2025-07-22T19:23:03Z) - Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
本稿では,検索者の後続のコントラスト学習のためのバックボーンを強化するために,QLの補助的タスクを提案する。
注意ブロック(AB)と文書破壊(DC)の2つの重要なコンポーネントを組み込んだモデルを紹介します。
論文 参考訳(メタデータ) (2025-04-07T16:03:59Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries [10.273545005890496]
データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
論文 参考訳(メタデータ) (2020-10-19T23:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。