論文の概要: SemanticAgent: A Semantics-Aware Framework for Text-to-SQL Data Synthesis
- arxiv url: http://arxiv.org/abs/2604.21414v1
- Date: Thu, 23 Apr 2026 08:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.38528
- Title: SemanticAgent: A Semantics-Aware Framework for Text-to-SQL Data Synthesis
- Title(参考訳): SemanticAgent: テキストからSQLへのデータ合成のためのセマンティック・アウェアフレームワーク
- Authors: Qiang Gao, Zhenping Li, Anqi Zhuo, Yingxiao Zhao, Weibo Geng, Xiaosong Li,
- Abstract要約: 意味認識型合成フレームワークSemanticAgentを提案する。
SemanticAgentは3つの特殊なモジュール(アナライザー、シンセサイザー、検証器)の周囲で合成を行う。
本フレームワークは, セマンティック・クオリティ評価において, 先行合成法より一貫して優れる合成データを生成する。
- 参考スコア(独自算出の注目度): 5.363883550974791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing text-to-SQL synthesis pipelines still conflate executability with semantic validity: syntactic checks and execution-based validation can retain queries that execute successfully while violating database semantics. To address these limitations, we propose SemanticAgent, a semantic-aware synthesis framework. SemanticAgent organizes synthesis around three specialized modules: an analyzer, a synthesizer, and a verifier. Through a three-stage protocol of semantic analysis, stepwise synthesis, and diagnostic refinement, SemanticAgent transforms execution-based validation alone into a traceable reasoning process. Our framework generates synthetic data that consistently outperforms prior synthesis methods under semantic-quality evaluation, leading to stronger downstream fine-tuning performance, especially on semantically demanding benchmarks.
- Abstract(参考訳): 構文チェックと実行ベースのバリデーションは、データベースのセマンティクスに違反しながら正常に実行されるクエリを保持することができる。
これらの制約に対処するため,意味認識型合成フレームワークSemanticAgentを提案する。
SemanticAgentは3つの特殊なモジュール(アナライザー、シンセサイザー、検証器)の周囲で合成を行う。
SemanticAgentはセマンティック分析、ステップワイズ合成、診断の洗練という3段階のプロトコルを通じて、実行ベースの検証のみをトレース可能な推論プロセスに変換する。
我々のフレームワークは, セマンティック品質評価において, 先行合成法を一貫して上回り, 特にセマンティック要求ベンチマークにおいて, 下流の微調整性能が向上する合成データを生成する。
関連論文リスト
- SynClaimEval: A Framework for Evaluating the Utility of Synthetic Data in Long-Context Claim Verification [1.740313383876245]
長文クレーム検証における合成データの有用性を評価するためのフレームワークであるSynClaimEvalを紹介する。
本フレームワークでは,文脈長の変化による入力特性,ドメイン外ベンチマークへの一般化テスト,クレームの複雑性とエラータイプの変化を制御した合成ロジック,モデル説明が予測に合致する証拠を提供する度合いを計測した説明品質の3つの次元について検討する。
論文 参考訳(メタデータ) (2025-11-12T18:36:59Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Agentic AI: The Era of Semantic Decoding [27.59524153097858]
本稿では,セマンティック・スペースにおける協調処理を最適化する手法として,セマンティック・デコーディング(semantic decoding)という新たな視点を提案する。
LLMを意味的トークン(既知の思考)と呼ばれる意味のある情報を操作するためのセマンティックプロセッサとして概念化する。
セマンティック・プロセッサ間の協調的な相互作用を,セマンティック・デコーディング・アルゴリズムとして,セマンティック・スペースの最適化と探索を行う。
論文 参考訳(メタデータ) (2024-03-21T17:06:17Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via
Synchronous Semantic Decoding [26.94318562020479]
教師なし意味解析手法の提案 -同期セマンティックデコーディング(SSD)-
SSDは、パラフレーズと文法制約付き復号を併用することにより、セマンティックギャップと構造ギャップを同時に解決することができる。
実験の結果、SSDは有望なアプローチであり、複数のデータセット上で競合する教師なしセマンティックパーシング性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2021-06-11T08:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。