論文の概要: Database Entity Recognition with Data Augmentation and Deep Learning
- arxiv url: http://arxiv.org/abs/2508.19372v1
- Date: Tue, 26 Aug 2025 19:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.405315
- Title: Database Entity Recognition with Data Augmentation and Deep Learning
- Title(参考訳): データ拡張とディープラーニングによるデータベースエンティティ認識
- Authors: Zikun Fu, Chen Yang, Kourosh Davoudi, Ken Q. Pu,
- Abstract要約: そこで本研究では,DB-ERタスクに対する人手による注釈付きベンチマークを提案する。
また,NLQの自動アノテーションを利用した新しいデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 2.7396543860784788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of Database Entity Recognition (DB-ER) in Natural Language Queries (NLQ). We present several key contributions to advance this field: (1) a human-annotated benchmark for DB-ER task, derived from popular text-to-sql benchmarks, (2) a novel data augmentation procedure that leverages automatic annotation of NLQs based on the corresponding SQL queries which are available in popular text-to-SQL benchmarks, (3) a specialized language model based entity recognition model using T5 as a backbone and two down-stream DB-ER tasks: sequence tagging and token classification for fine-tuning of backend and performing DB-ER respectively. We compared our DB-ER tagger with two state-of-the-art NER taggers, and observed better performance in both precision and recall for our model. The ablation evaluation shows that data augmentation boosts precision and recall by over 10%, while fine-tuning of the T5 backbone boosts these metrics by 5-10%.
- Abstract(参考訳): 本稿では,自然言語クエリ(NLQ)におけるデータベースエンティティ認識(DB-ER)の課題について述べる。
1) 一般的なテキスト間ベンチマークから派生したDB-ERタスクの人為的注釈付きベンチマーク,(2) 人気のあるテキスト間ベンチマークで利用可能な対応するSQLクエリに基づいてNLQの自動アノテーションを利用する新しいデータ拡張手順,(3) バックボーンとしてT5を用いた特殊言語モデルに基づくエンティティ認識モデル,および2つの下流DB-ERタスク: バックエンドの微調整のためのシーケンスタグ付けとトークン分類。
我々は,DB-ERタグを最先端の2つのNERタグと比較し,精度とリコールの両面で優れた性能を示した。
アブレーション評価では、データの増大により精度とリコールが10%以上向上し、T5バックボーンの微調整によってこれらの測定値が5~10%向上している。
関連論文リスト
- SDE-SQL: Enhancing Text-to-SQL Generation in Large Language Models via Self-Driven Exploration with SQL Probes [10.672822970425404]
本研究では,大規模言語モデルによる推論中のデータベースの自己駆動探索を可能にするフレームワークであるSDE-を提案する。
従来の方法とは異なり、SDE-はin-contextのデモとして質問コンテキストペアに頼ることなく、ゼロショット設定で動作する。
論文 参考訳(メタデータ) (2025-06-08T18:01:26Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - N-Best Hypotheses Reranking for Text-To-SQL Systems [6.966624873109535]
Text-to-Taskは自然言語の発話を構造化クエリにマッピングする。
最先端のSOTA(State-of-the-art)システムは、大規模で訓練済みの言語モデルに頼っている。
発見は、再ランク付けによる潜在的な大幅な改善を示している。
論文 参考訳(メタデータ) (2022-10-19T15:35:06Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。