論文の概要: RoboPhD: Self-Improving Text-to-SQL Through Autonomous Agent Evolution
- arxiv url: http://arxiv.org/abs/2601.01126v1
- Date: Sat, 03 Jan 2026 09:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.042658
- Title: RoboPhD: Self-Improving Text-to-SQL Through Autonomous Agent Evolution
- Title(参考訳): RoboPhD: 自律エージェント進化によるテキストからSQLへの自己改善
- Authors: Andrew Borthwick, Stephen Ash,
- Abstract要約: RoboPhDは、AIエージェントがテキストから適応的なパフォーマンスを改善するために、自律的に研究を行うシステムである。
フレームワークの中心は、ELOベースの選択メカニズムで、最も適したダイナミクスの生存を可能にする。
このシステムはBIRDテストセットで73.67%の精度を達成し、AIが自力で強力なエージェントシステムを構築できることを実証した。
- 参考スコア(独自算出の注目度): 0.2389431394996565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RoboPhD, a system where AI agents autonomously conduct research to improve Text-to-SQL performance. RoboPhD implements a closed-loop evolution cycle with two coordinated components: a SQL Generation agent composed of a database analysis script and SQL generation instructions, and an Evolution agent that designs new versions based on performance feedback. Central to the framework is an ELO-based selection mechanism enabling survival-of-the-fittest dynamics while handling non-transitivity in performance. Starting from a naive 70-line baseline, RoboPhD evolves agents through iterative cross-pollination, discovering effective techniques without any external guidance on the Text-to-SQL domain. Our best agent, evolved to 1500 lines over 18 iterations, autonomously discovered strategies such as size-adaptive database analysis that adjusts depth based on schema complexity and SQL generation patterns for column selection, evidence interpretation, and aggregation. Evolution provides the largest gains on cheaper models: while we improve by 2.3 points over a strong Claude Opus 4.5 naive baseline, we show an improvement of 8.9 points over the weaker Claude Haiku model. This enables 'skip a tier' deployment: evolved Haiku exceeds naive Sonnet accuracy, and evolved Sonnet exceeds naive Opus, both at lower cost. The full system achieves 73.67% accuracy on the BIRD test set, demonstrating that AI can autonomously build a strong agentic system with only a trivial human-provided starting point.
- Abstract(参考訳): 我々は,AIエージェントがテキスト対SQLのパフォーマンスを改善するために,自律的に研究を行うシステムであるRoboPhDを提案する。
RoboPhDは、データベース分析スクリプトとSQL生成命令で構成されるSQL生成エージェントと、パフォーマンスフィードバックに基づいて新しいバージョンを設計するEvolutionエージェントの2つの調整済みコンポーネントで、クローズドループ進化サイクルを実装している。
フレームワークの中心は、ELOベースの選択メカニズムで、パフォーマンスの非透過性を扱うと同時に、最も適したダイナミクスの生存を可能にする。
70行の簡単なベースラインから始まり、RoboPhDは反復的なクロスポリン化を通じてエージェントを進化させ、Text-to-SQLドメインの外部ガイダンスなしで効果的なテクニックを発見する。
私たちのベストエージェントは18イテレーションで1500行に進化し、スキーマの複雑さに基づいて深さを調整するサイズ適応型データベース分析や列選択のためのSQL生成パターン、エビデンス解釈、アグリゲーションといった、自律的な戦略を発見しました。
より強力なクロードオプス4.5ナイーブベースラインよりも2.3ポイント向上する一方で、より弱いクロードハイクモデルよりも8.9ポイント改善することを示す。
進化したHaikuは、素早いSonnetの精度を超え、進化したSonnetは、どちらも低コストで、素早いOpusを超えます。
完全なシステムはBIRDテストセットで73.67%の精度を達成し、AIが自力で強力なエージェントシステムを構築できることを実証している。
関連論文リスト
- Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - MARS-SQL: A multi-agent reinforcement learning framework for Text-to-SQL [22.59453421744114]
基本的タスク分解と対話型強化学習(RL)を組み合わせた新しいマルチエージェントフレームワークMARS-を紹介する。
実験の結果、MARS-はBIRDセットで77.84%、スパイダーテストセットで89.84%の最先端の実行精度を達成した。
論文 参考訳(メタデータ) (2025-11-02T16:55:30Z) - WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection [51.10348385624784]
本稿では,自己回帰機構によって強化された強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを紹介する。
提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
論文 参考訳(メタデータ) (2025-10-21T16:52:00Z) - HES-SQL: Hybrid Reasoning for Efficient Text-to-SQL with Structural Skeleton Guidance [6.653834890554154]
HES-は、思考モード融合型教師あり微調整の統合により、テキストからレイテンシ生成を進化させる新しいハイブリッドトレーニングフレームワークである。
このフレームワークは、クエリの精度と実行効率を改善しながら、推論モードと非推論モードの切り替えを可能にする。
論文 参考訳(メタデータ) (2025-10-10T01:15:57Z) - SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation [8.638974393417929]
State-of-the-the-art text-to-sql studyはBIRDデータセットに依存しており、証拠が質問と共に提供されると仮定している。
実世界のシナリオにおける性能向上と実用性向上のためのエビデンスを自動生成するSEEDを提案する。
論文 参考訳(メタデータ) (2025-06-09T04:44:31Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - Solid-SQL: Enhanced Schema-linking based In-context Learning for Robust Text-to-SQL [13.122218546167463]
大規模言語モデル(LLM)は、テキスト・ツー・システムの性能を大幅に改善した。
多くのSOTA(State-of-the-art)アプローチは、システムの堅牢性の重要な側面を見落としている。
論文 参考訳(メタデータ) (2024-12-17T04:22:22Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。