論文の概要: OraPlan-SQL: A Planning-Centric Framework for Complex Bilingual NL2SQL Reasoning
- arxiv url: http://arxiv.org/abs/2510.23870v1
- Date: Mon, 27 Oct 2025 21:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.52027
- Title: OraPlan-SQL: A Planning-Centric Framework for Complex Bilingual NL2SQL Reasoning
- Title(参考訳): OraPlan-SQL: 複雑なバイリンガルNL2SQL推論のための計画中心フレームワーク
- Authors: Marianne Menglin Liu, Sai Ashish Somayajula, Syed Fahad Allam Shah, Sujith Ravi, Dan Roth,
- Abstract要約: OraPlanが第1位、実行精度(EX)が6%以上上昇
OraPlanが第1位、実行精度(EX)が6%以上上昇
- 参考スコア(独自算出の注目度): 42.326348491460365
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present OraPlan-SQL, our system for the Archer NL2SQL Evaluation Challenge 2025, a bilingual benchmark requiring complex reasoning such as arithmetic, commonsense, and hypothetical inference. OraPlan-SQL ranked first, exceeding the second-best system by more than 6% in execution accuracy (EX), with 55.0% in English and 56.7% in Chinese, while maintaining over 99% SQL validity (VA). Our system follows an agentic framework with two components: Planner agent that generates stepwise natural language plans, and SQL agent that converts these plans into executable SQL. Since SQL agent reliably adheres to the plan, our refinements focus on the planner. Unlike prior methods that rely on multiple sub-agents for planning and suffer from orchestration overhead, we introduce a feedback-guided meta-prompting strategy to refine a single planner. Failure cases from a held-out set are clustered with human input, and an LLM distills them into corrective guidelines that are integrated into the planner's system prompt, improving generalization without added complexity. For the multilingual scenario, to address transliteration and entity mismatch issues, we incorporate entity-linking guidelines that generate alternative surface forms for entities and explicitly include them in the plan. Finally, we enhance reliability through plan diversification: multiple candidate plans are generated for each query, with the SQL agent producing a query for each plan, and final output selected via majority voting over their executions.
- Abstract(参考訳): 我々は、算術、常識、仮説推論といった複雑な推論を必要とするバイリンガルベンチマークであるArcher NL2SQL Evaluation Challenge 2025のシステムであるOlaPlan-SQLを提案する。
OraPlan-SQLは第1位で、実行精度(EX)が6%以上、英語が55.0%、中国語が56.7%、SQLの妥当性(VA)が99%を超えている。
本システムは,段階的に自然言語プランを生成するPlanner Agentと,これらのプランを実行可能なSQLに変換するSQL Agentの2つのコンポーネントからなるエージェントフレームワークに従う。
SQLエージェントは計画に確実に準拠するので、改善はプランナーに焦点を合わせます。
複数のサブエージェントを計画に頼り、オーケストレーションのオーバーヘッドに悩まされる従来の方法とは異なり、我々は単一のプランナを洗練するためのフィードバック誘導型メタプロンプティング戦略を導入する。
ホールドアウトセットからの障害ケースは人間の入力でクラスタ化され、LSMはそれらを修正ガイドラインに抽出し、プランナーのシステムプロンプトに統合し、複雑さを増すことなく一般化を改善する。
多言語シナリオでは、文字化やエンティティミスマッチの問題に対処するため、エンティティの代替曲面を生成するエンティティリンクガイドラインを導入し、明示的に計画に含めます。
最後に、各クエリに対して複数の候補プランが生成され、SQLエージェントが各プランに対してクエリを生成し、その実行に対して多数決によって最終出力が選択される。
関連論文リスト
- LLM-Based SQL Generation: Prompting, Self-Refinement, and Adaptive Weighted Majority Voting [7.590911146338215]
アンサンブル投票(SSEV)を用いたシングルエージェント自己精製法を提案する。
私たちは、エンタープライズデータベースと現実のText-to-Actタスクの複雑さの増加に対処するために、SSEVパイプラインからの洞察に基づいています。
ReCAPAgent-5.5%は、計画、外部知識検索、批評、行動生成、自己修正、スキーマリンク、結果検証のための特殊エージェントを統合している。
論文 参考訳(メタデータ) (2026-01-25T18:38:58Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - From Queries to Insights: Agentic LLM Pipelines for Spatio-Temporal Text-to-SQL [8.496933324334167]
本研究では,MistralをベースとしたRellama-sqlcoder-8bによるオーケストレーションにより,簡単なテキストからActまでのベースライン(Rellama-sqlcoder-8b)を提案する。
ニューヨークと東京のチェックインで35の自然言語クエリを評価し,空間的・時間的マルチデータセット推論について検討した。
このエージェントは、データセット 91.4% 対 28.6% よりもかなり精度が高く、地図によるユーザビリティを高め、自然言語の要約を構造化する。
論文 参考訳(メタデータ) (2025-10-29T22:18:57Z) - LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction [5.123751486259634]
2つのコンポーネントを持つ軽量で効率的なフレームワークLitE-を紹介します。
BIRDでは、LitE-は72.10%の実行精度を達成し、Spiderでは88.45%に達し、Retrieverと同等または優れたパフォーマンスを示している。
以上の結果から,高品質のテキスト・トゥ・コレクション・ジェネレーションは軽量モデルで実現可能であり,プライバシに敏感かつリソース制約のある設定に実用的なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-10-10T05:27:47Z) - A Preview of XiYan-SQL: A Multi-Generator Ensemble Framework for Text-to-SQL [20.010431872384714]
XiYanは、マルチコンテキストアンサンブル戦略を用いて、候補生成を改善する革新的なフレームワークである。
本稿では,データベース構造を理解するための半構造化表現手法であるM-スキーマを紹介する。
全体として、提案したXiYan-the-artフレームワークは、Birdデータセットベンチマークで75.63%の最先端実行精度を実現する。
論文 参考訳(メタデータ) (2024-11-13T13:30:21Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - N-Best Hypotheses Reranking for Text-To-SQL Systems [6.966624873109535]
Text-to-Taskは自然言語の発話を構造化クエリにマッピングする。
最先端のSOTA(State-of-the-art)システムは、大規模で訓練済みの言語モデルに頼っている。
発見は、再ランク付けによる潜在的な大幅な改善を示している。
論文 参考訳(メタデータ) (2022-10-19T15:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。