Fugu-MT 論文翻訳(概要): Agentar-Scale-SQL: Advancing Text-to-SQL through Orchestrated Test-Time Scaling

論文の概要: Agentar-Scale-SQL: Advancing Text-to-SQL through Orchestrated Test-Time Scaling

arxiv url: http://arxiv.org/abs/2509.24403v3
Date: Wed, 01 Oct 2025 02:55:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-02 14:33:21.812568
Title: Agentar-Scale-SQL: Advancing Text-to-SQL through Orchestrated Test-Time Scaling
Title（参考訳）: Agentar-Scale-SQL: テスト時間のオーケストレーションによるテキストからSQLへの拡張
Authors: Pengfei Wang, Baolin Sun, Xuemei Dong, Yaxun Dai, Hongwei Yuan, Mengdie Chu, Yingqi Gao, Xiang Qi, Peng Zhang, Ying Yan,
Abstract要約: 最先端のSOTA (State-of-the-art) テキスト・トゥ・ザ・アーティカルな手法は、BIRDのような計算ベンチマークの挑戦に関して、人間の専門家よりかなり遅れている。テスト時間のスケーリングを探求する現在のアプローチでは、組織化された戦略が欠如し、モデルの内部推論プロセスを無視しています。
参考スコア（独自算出の注目度）: 11.577572131517714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State-of-the-art (SOTA) Text-to-SQL methods still lag significantly behind human experts on challenging benchmarks like BIRD. Current approaches that explore test-time scaling lack an orchestrated strategy and neglect the model's internal reasoning process. To bridge this gap, we introduce Agentar-Scale-SQL, a novel framework leveraging scalable computation to improve performance. Agentar-Scale-SQL implements an Orchestrated Test-Time Scaling strategy that synergistically combines three distinct perspectives: i) Internal Scaling via RL-enhanced Intrinsic Reasoning, ii) Sequential Scaling through Iterative Refinement, and iii) Parallel Scaling using Diverse Synthesis and Tournament Selection. Agentar-Scale-SQL is a general-purpose framework designed for easy adaptation to new databases and more powerful language models. Extensive experiments show that Agentar-Scale-SQL achieves SOTA performance on the BIRD benchmark, reaching 81.67% execution accuracy on the test set and ranking first on the official leaderboard, demonstrating an effective path toward human-level performance.
Abstract（参考訳）: State-of-the-art (SOTA) Text-to-SQLメソッドは、BIRDのような挑戦的なベンチマークに関して、人間の専門家よりはるかに遅れている。テスト時間のスケーリングを探求する現在のアプローチでは、組織化された戦略が欠如し、モデルの内部推論プロセスを無視しています。このギャップを埋めるために、スケーラブルな計算を活用してパフォーマンスを向上させる新しいフレームワークであるAgentar-Scale-SQLを紹介します。 Agentar-Scale-SQLは,3つの異なる視点を相乗的に組み合わせた,オーケストレーションテスト時間スケーリング戦略を実装している。一内因性推論による内部スケーリング二反復リファインメントによる逐次スケーリング及び三異種合成とトーナメント選択による並列スケーリング Agentar-Scale-SQLは、新しいデータベースやより強力な言語モデルへの容易に適応できるように設計された汎用フレームワークである。大規模な実験によると、Agensar-Scale-SQLはBIRDベンチマークでSOTAのパフォーマンスを達成し、テストセット上で81.67%の実行精度に達し、公式のリーダーボードで最初にランクインし、人間レベルのパフォーマンスへの効果的なパスを示す。

関連論文リスト

Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。 CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文参考訳（メタデータ） (2026-02-12T18:58:30Z)
APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL [39.76924093980244]
APEX-動詞化は、パラダイムを受動的翻訳からエージェント探索に移行するフレームワークである。提案フレームワークでは,実データにおける基底モデル推論に仮説検証ループを用いる。
論文参考訳（メタデータ） (2026-02-11T07:50:47Z)
LLM-Based SQL Generation: Prompting, Self-Refinement, and Adaptive Weighted Majority Voting [7.590911146338215]
アンサンブル投票(SSEV)を用いたシングルエージェント自己精製法を提案する。私たちは、エンタープライズデータベースと現実のText-to-Actタスクの複雑さの増加に対処するために、SSEVパイプラインからの洞察に基づいています。 ReCAPAgent-5.5%は、計画、外部知識検索、批評、行動生成、自己修正、スキーマリンク、結果検証のための特殊エージェントを統合している。
論文参考訳（メタデータ） (2026-01-25T18:38:58Z)
SQL-Trail: Multi-Turn Reinforcement Learning with Interleaved Feedback for Text-to-SQL [20.49395306069103]
テキスト・ツー・ワン・ジェネレーションのためのマルチターン強化学習(RL)エージェント・フレームワークを提案する。 1ショットでクエリを生成するのではなく、SQL-Trailはデータベース環境と対話し、実行フィードバックを使用して予測を反復的に洗練する。提案手法は, エージェントの相互作用深度を問合せ難易度に合わせるための適応的なターン予算配分機構と, sqlの正しさと効率的な探索を両立させる複合報酬パネルの2つを主眼とする。
論文参考訳（メタデータ） (2026-01-25T05:16:52Z)
Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文参考訳（メタデータ） (2025-11-26T13:52:50Z)
Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks [21.891522433628893]
大規模言語モデル(LLM)はText-to-(Text2)システムにますます力を入れている。テストタイムのスケーリング戦略はLLMベースのソリューションでは有望だが、現実のアプリケーション、特に最新の推論モデルでは、その有効性は不確実である。この作業は、Text2システムをデプロイする際の正確性、効率、複雑さの間の実践的なトレードオフに光を当てています。
論文参考訳（メタデータ） (2025-10-13T01:29:54Z)
HES-SQL: Hybrid Reasoning for Efficient Text-to-SQL with Structural Skeleton Guidance [6.653834890554154]
HES-は、思考モード融合型教師あり微調整の統合により、テキストからレイテンシ生成を進化させる新しいハイブリッドトレーニングフレームワークである。このフレームワークは、クエリの精度と実行効率を改善しながら、推論モードと非推論モードの切り替えを可能にする。
論文参考訳（メタデータ） (2025-10-10T01:15:57Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
Scaling Test-time Compute for LLM Agents [51.790752085445384]
テスト時間計算のスケールアップは、大規模言語モデル(LLM)の推論能力の向上に顕著な成功を収めた。本研究では,テスト時間スケーリング手法を言語エージェントに適用する最初の体系的な検討を行う。
論文参考訳（メタデータ） (2025-06-15T17:59:47Z)
LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文参考訳（メタデータ） (2025-06-02T03:07:08Z)
Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward [15.448159172903138]
テキスト・ツー・タスクにおける大規模言語モデル(LLM)の性能向上のために,強化学習(RL)が広く採用されている。既存の方法は、実行ベースやLLMベースのBradley-Terry報酬モデルに依存していることが多い。本稿では,GMNScore結果報酬モデルを用いたテキスト・ツー・RLファインチューニングフレームワークであるGraph-Reward-Rewardを提案する。
論文参考訳（メタデータ） (2025-05-18T11:53:01Z)
Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning [0.12289361708127876]
この研究は、Text-to-the-taskを、大規模言語モデル(LLM)にデータの推論と操作を教えるための経路として再構成した。本稿では,テーブルフィールドをトラバースし,フィルタし,集約する方法をモデルに教える2段階フレームワークを提案する。提案手法は,BIRD や CRT-QA などの推論集約型データセットに対して,理論的に有意な向上を実現している。
論文参考訳（メタデータ） (2025-04-23T19:02:04Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
OpenSearch-SQL: Enhancing Text-to-SQL with Dynamic Few-shot and Consistency Alignment [6.2089733671434875]
我々は,テキストからエージェントまでのタスクを,整合性アライメント機構に基づくアライメントモジュールとともに,前処理,抽出,生成,リファインメントの4つの主要なモジュールに分割するOpenSearch-を提案する。これらの手法はテキスト・ツー・エージェント・タスクにおけるLLMの性能を大幅に向上させた。実験の結果、OpenSearch-はBIRD開発セットで69.3%、テストセットで72.28%、報酬ベースの効率スコア(R-VES)で69.3で実行精度(EX)を達成した。
論文参考訳（メタデータ） (2025-02-19T07:51:50Z)
Solid-SQL: Enhanced Schema-linking based In-context Learning for Robust Text-to-SQL [13.122218546167463]
大規模言語モデル(LLM)は、テキスト・ツー・システムの性能を大幅に改善した。多くのSOTA(State-of-the-art)アプローチは、システムの堅牢性の重要な側面を見落としている。
論文参考訳（メタデータ） (2024-12-17T04:22:22Z)
SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting [67.97870844244187]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文参考訳（メタデータ） (2023-11-16T16:50:56Z)
AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-07-15T16:46:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。