論文の概要: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
- arxiv url: http://arxiv.org/abs/2510.10885v1
- Date: Mon, 13 Oct 2025 01:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.139144
- Title: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
- Title(参考訳): エージェントワークフローの再考: Text2SQLタスクにおける推論ベースのテスト時間スケーリング戦略の評価
- Authors: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren,
- Abstract要約: 大規模言語モデル(LLM)はText-to-(Text2)システムにますます力を入れている。
テストタイムのスケーリング戦略はLLMベースのソリューションでは有望だが、現実のアプリケーション、特に最新の推論モデルでは、その有効性は不確実である。
この作業は、Text2システムをデプロイする際の正確性、効率、複雑さの間の実践的なトレードオフに光を当てています。
- 参考スコア(独自算出の注目度): 21.891522433628893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
- Abstract(参考訳): 大規模言語モデル(LLM)はText-to-SQL(Text2SQL)システムにますます力を入れている。
テストタイムのスケーリング戦略はLLMベースのソリューションでは有望だが、現実のアプリケーション、特に最新の推論モデルでは、その有効性は不確実である。
本研究では,BIRD Mini-Devベンチマークにおいて,軽量で産業指向の6つのテストタイムスケーリング戦略と2つの推論モデルを含む4つのLCMをベンチマークした。
標準的な精度の指標以外にも、推論のレイテンシやトークンの消費を報告し、実用的なシステムデプロイメントに関する洞察を提供しています。
以上の結果から,Divide-and-Conquerのプロンプトと数発のデモにより,汎用と推論に焦点をあてたLLMの性能が一貫して向上することが判明した。
しかし、追加のワークフローステップを導入すると、結果が混ざり合い、ベースモデルの選択が重要な役割を果たす。
この作業は、Text2SQLシステムをデプロイする際の正確性、効率、複雑さの間の実践的なトレードオフに光を当てている。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Benchmarking the Text-to-SQL Capability of Large Language Models: A
Comprehensive Evaluation [33.41556606816004]
大規模言語モデル(LLM)は、テキストからタスクへ進むための強力なツールとして登場した。
最適なプロンプトテンプレートと設計フレームワークについてはまだ合意が得られていない。
既存のベンチマークでは、テキスト・ツー・プロセスの様々なサブタスクにまたがるLCMのパフォーマンスが不十分である。
論文 参考訳(メタデータ) (2024-03-05T13:23:48Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。