論文の概要: OptiSQL: Executable SQL Generation from Optical Tokens
- arxiv url: http://arxiv.org/abs/2601.13695v2
- Date: Wed, 21 Jan 2026 03:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.179759
- Title: OptiSQL: Executable SQL Generation from Optical Tokens
- Title(参考訳): OptiSQL: 光トークンから実行可能なSQL生成
- Authors: Sifan Li, Hongkai Chen, Yujun Cai, Liyang Chen, Qingwen Ye, Yiwei Wang,
- Abstract要約: 本稿では,テーブルイメージや自然言語質問から直接実行可能なsqlを生成する,視覚駆動型フレームワークOptiを提案する。
実験の結果、Optiはテーブル入力トークンを桁違いに削減しながら、強い実行精度を維持していることがわかった。
- 参考スコア(独自算出の注目度): 29.443084496227026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Executable SQL generation is typically studied in text-to-SQL settings, where tables are provided as fully linearized textual schemas and contents. While effective, this formulation assumes access to structured text and incurs substantial token overhead, which is misaligned with many real-world scenarios where tables appear as visual artifacts in documents or webpages. We investigate whether compact optical representations can serve as an efficient interface for executable semantic parsing. We present OptiSQL, a vision-driven framework that generates executable SQL directly from table images and natural language questions using compact optical tokens. OptiSQL leverages an OCR-oriented visual encoder to compress table structure and content into a small set of optical tokens and fine-tunes a pretrained decoder for SQL generation while freezing the encoder to isolate representation sufficiency. Experiments on a visualized version of Spider 2.0-Snow show that OptiSQL retains strong execution accuracy while reducing table input tokens by an order of magnitude. Robustness analyses further demonstrate that optical tokens preserve essential structural information under visual perturbations.
- Abstract(参考訳): 実行可能なSQL生成は、通常、テキストからSQLまでの設定で研究され、テーブルは完全に線形化されたテキストスキーマと内容として提供される。
この定式化は有効であるが、構造化されたテキストへのアクセスを前提とし、大量のトークンオーバーヘッドを発生させる。
我々は,コンパクトな光学的表現が,実行可能セマンティックパーシングの効果的なインターフェースとして機能するかどうかを考察する。
我々は,コンパクトな光学トークンを用いて,テーブルイメージや自然言語質問から直接実行可能なSQLを生成する,視覚駆動型フレームワークOptiSQLを提案する。
OptiSQLは、OCR指向のビジュアルエンコーダを利用して、テーブル構造とコンテンツを小さな光学トークンのセットに圧縮し、SQL生成のための事前訓練されたデコーダを微調整し、エンコーダを凍結して表現不足を解消する。
Spider 2.0-Snowの視覚化されたバージョンの実験では、OptiSQLはテーブル入力トークンを桁違いに削減しながら、強い実行精度を維持している。
ロバストネス解析は、光学トークンが視覚摂動の下で重要な構造情報を保持することをさらに証明している。
関連論文リスト
- LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction [5.123751486259634]
2つのコンポーネントを持つ軽量で効率的なフレームワークLitE-を紹介します。
BIRDでは、LitE-は72.10%の実行精度を達成し、Spiderでは88.45%に達し、Retrieverと同等または優れたパフォーマンスを示している。
以上の結果から,高品質のテキスト・トゥ・コレクション・ジェネレーションは軽量モデルで実現可能であり,プライバシに敏感かつリソース制約のある設定に実用的なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-10-10T05:27:47Z) - Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation [26.834687657847454]
テキスト-to-sqlモデルは、現実世界のアプリケーションでますます採用されている。
このようなモデルを現実世界にデプロイするには、特定のアプリケーションで使用される高度に専門化されたデータベーススキーマにそれらを適用する必要があることが多い。
既存のtext-to-sqlモデルは、新しいスキーマに適用した場合、大幅なパフォーマンス低下を経験する。
スキーマの進化のための高品質なテキスト間データを継続的に取得することは、現実世界のシナリオでは違法に高価である。
論文 参考訳(メタデータ) (2025-02-21T22:32:35Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation [16.07396492960869]
本稿では,テキストからテキストへの変換処理に特化して設計されたトランスフォーマーアーキテクチャを提案する。
我々のモデルは、実行可能層とデコーダ層に構造的帰納バイアスを組み込んで、クエリを自動で抽象構文木(AST)として予測する。
論文 参考訳(メタデータ) (2023-10-27T00:13:59Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton
Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。
本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。
我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文 参考訳(メタデータ) (2023-04-26T06:02:01Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。