論文の概要: Evaluating Retrieval-Augmented Generation Variants for Natural Language-Based SQL and API Call Generation
- arxiv url: http://arxiv.org/abs/2602.07086v1
- Date: Fri, 06 Feb 2026 08:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.436548
- Title: Evaluating Retrieval-Augmented Generation Variants for Natural Language-Based SQL and API Call Generation
- Title(参考訳): 自然言語ベースのSQLとAPI呼び出し生成のための検索拡張型世代変数の評価
- Authors: Michael Marketsmüller, Simon Martin, Tim Schlippe,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成の約束を示すが、ドメイン固有のエンタープライズコンテキストにおけるそれらの有効性はまだ未調査である。
本稿では,3種類のRAGを総合的に評価する。
本研究は,生産級自然言語インタフェースの重要な決定要因として,検索政治設計を確立した。
- 参考スコア(独自算出の注目度): 0.6117371161379209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enterprise systems increasingly require natural language interfaces that can translate user requests into structured operations such as SQL queries and REST API calls. While large language models (LLMs) show promise for code generation [Chen et al., 2021; Huynh and Lin, 2025], their effectiveness in domain-specific enterprise contexts remains underexplored, particularly when both retrieval and modification tasks must be handled jointly. This paper presents a comprehensive evaluation of three retrieval-augmented generation (RAG) variants [Lewis et al., 2021] -- standard RAG, Self-RAG [Asai et al., 2024], and CoRAG [Wang et al., 2025] -- across SQL query generation, REST API call generation, and a combined task requiring dynamic task classification. Using SAP Transactional Banking as a realistic enterprise use case, we construct a novel test dataset covering both modalities and evaluate 18 experimental configurations under database-only, API-only, and hybrid documentation contexts. Results demonstrate that RAG is essential: Without retrieval, exact match accuracy is 0% across all tasks, whereas retrieval yields substantial gains in execution accuracy (up to 79.30%) and component match accuracy (up to 78.86%). Critically, CoRAG proves most robust in hybrid documentation settings, achieving statistically significant improvements in the combined task (10.29% exact match vs. 7.45% for standard RAG), driven primarily by superior SQL generation performance (15.32% vs. 11.56%). Our findings establish retrieval-policy design as a key determinant of production-grade natural language interfaces, showing that iterative query decomposition outperforms both top-k retrieval and binary relevance filtering under documentation heterogeneity.
- Abstract(参考訳): エンタープライズシステムでは、ユーザ要求をSQLクエリやREST API呼び出しといった構造化された操作に変換する自然言語インターフェースがますます必要になります。
大規模言語モデル(LLMs)はコード生成の約束を示す(Chen et al , 2021; Huynh and Lin, 2025)が、ドメイン固有のエンタープライズコンテキストにおけるそれらの有効性は、特に検索と修正の両方を共同で扱う必要がある場合、未検討のままである。
本稿では、SQLクエリ生成、REST API呼び出し生成、動的タスク分類を必要とする複合タスクの3つのRAG(Lewis et al , 2021)、Self-RAG(Asai et al , 2024)、CoRAG(Wang et al , 2025)を包括的に評価する。
SAPトランザクションバンキングを現実的なエンタープライズユースケースとして使用し、両方のモダリティをカバーする新しいテストデータセットを構築し、データベースのみ、APIのみ、ハイブリッドドキュメントコンテキスト下で18の実験的な構成を評価します。
検索がなければ、正確なマッチング精度は全タスクで0%であり、一方、検索は実行精度(79.30%まで)とコンポーネントマッチング精度(78.86%まで)でかなり向上する。
批判的に、CoRAGはハイブリットドキュメンテーション設定において最も堅牢であり、統合タスクの統計的に有意な改善(10.29%の正確さと標準RAGの7.45%)を達成し、主にSQL生成性能(15.32%対11.56%)によって駆動される。
本研究は, 検索・ポリシー設計を製品レベルの自然言語インタフェースの重要な決定要因として確立し, 反復的なクエリ分解は, 文書の不均一性の下で, トップk検索とバイナリ関連フィルタリングの両方に優れることを示した。
関連論文リスト
- RAGRouter-Bench: A Dataset and Benchmark for Adaptive RAG Routing [37.7721677767453]
適応型RAGルーティング用に設計された最初のデータセットとベンチマークであるRAG-Benchを紹介する。
RAG-Benchは、クエリコーパスの互換性の観点から検索を再考し、5つの代表的なRAGパラダイムを体系的評価のために標準化する。
DeepSeek-V3 と LLaMA-3.1-8B による実験は、単一のRAGパラダイムが普遍的に最適であることを示した。
論文 参考訳(メタデータ) (2026-01-30T20:38:11Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - RAGentA: Multi-Agent Retrieval-Augmented Generation for Attributed Question Answering [4.224843546370802]
本稿では,大規模言語モデル(LLM)を用いた属性質問応答フレームワークであるRAGentAを提案する。
RAGentAは、信頼できる回答生成の目標として、質問と忠実性に対するカバレッジと関連性によって定義された回答の正しさを最適化することに焦点を当てている。
フレームワークの中心は、スパースと密集したメソッドを組み合わせたハイブリッド検索戦略であり、最高の単一検索モデルと比較して、Recall@20を12.5%改善している。
論文 参考訳(メタデータ) (2025-06-20T13:37:03Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [34.72864597562907]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - TARGET: Benchmarking Table Retrieval for Generative Tasks [7.379012456053551]
TARGETは、GEnerative TasksのTAble Retrievalを評価するためのベンチマークである。
我々は、異なる検索者の検索性能と、下流タスクへの影響を分離して分析する。
密着型埋込型検索器はBM25ベースラインよりもはるかに優れており,非構造化テキストの検索よりも効率が低い。
論文 参考訳(メタデータ) (2025-05-14T19:39:46Z) - From Retrieval to Generation: Comparing Different Approaches [15.31883349259767]
我々は,知識集約型タスクに対する検索ベース,生成ベース,ハイブリッドモデルの評価を行った。
我々は、高密度レトリバー、特にDPRは、NQ上でトップ1の精度が50.17%のODQAにおいて高い性能を発揮することを示す。
また、WikiText-103を用いて言語モデリングタスクを解析し、BM25のような検索に基づくアプローチは、生成的手法やハイブリッド手法に比べて難易度が低いことを示す。
論文 参考訳(メタデータ) (2025-02-27T16:29:14Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。