論文の概要: Data Transformation to Construct a Dataset for Generating
Entity-Relationship Model from Natural Language
- arxiv url: http://arxiv.org/abs/2312.13694v1
- Date: Thu, 21 Dec 2023 09:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:30:12.290169
- Title: Data Transformation to Construct a Dataset for Generating
Entity-Relationship Model from Natural Language
- Title(参考訳): 自然言語からエンティティ関係モデルを生成するデータセット構築のためのデータ変換
- Authors: Zhenwen Li, Jian-Guang Lou, Tao Xie
- Abstract要約: ERモデルの手作業コストを削減するため,NL2ERMの課題に対処する手法が提案されている。
これらのアプローチは通常、厳格なルールに依存するルールベースのアプローチである。
ルールベースのアプローチよりも一般化が優れているにもかかわらず、大規模なデータセットが欠如しているため、ディープベースモデルはNL2ERMに欠けている。
- 参考スコア(独自算出の注目度): 39.53954130028595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to reduce the manual cost of designing ER models, recent approaches
have been proposed to address the task of NL2ERM, i.e., automatically
generating entity-relationship (ER) models from natural language (NL)
utterances such as software requirements. These approaches are typically
rule-based ones, which rely on rigid heuristic rules; these approaches cannot
generalize well to various linguistic ways of describing the same requirement.
Despite having better generalization capability than rule-based approaches,
deep-learning-based models are lacking for NL2ERM due to lacking a large-scale
dataset. To address this issue, in this paper, we report our insight that there
exists a high similarity between the task of NL2ERM and the increasingly
popular task of text-to-SQL, and propose a data transformation algorithm that
transforms the existing data of text-to-SQL into the data of NL2ERM. We apply
our data transformation algorithm on Spider, one of the most popular
text-to-SQL datasets, and we also collect some data entries with different NL
types, to obtain a large-scale NL2ERM dataset. Because NL2ERM can be seen as a
special information extraction (IE) task, we train two state-of-the-art IE
models on our dataset. The experimental results show that both the two models
achieve high performance and outperform existing baselines.
- Abstract(参考訳): ERモデルを手作業で設計するコストを削減するため,NL2ERMのタスク,すなわちソフトウェア要件などの自然言語(NL)発話からエンティティ関係(ER)モデルを自動的に生成する手法が提案されている。
これらのアプローチは、通常、厳格なヒューリスティックなルールに依存するルールベースであり、同じ要件を記述する様々な言語的な方法にうまく一般化できない。
ルールベースのアプローチよりも一般化能力が優れているにもかかわらず、大規模なデータセットがないため、ディープラーニングベースのモデルはNL2ERMに欠けている。
そこで本研究では,NL2ERMのタスクとテキストからSQLへのタスクの間には高い類似性が存在するという知見を報告し,既存のテキストからSQLへのデータに変換するデータ変換アルゴリズムを提案する。
我々は、最も人気のあるテキストからSQLへのデータセットであるSpiderにデータ変換アルゴリズムを適用し、また、異なるNLタイプのデータエントリを収集し、大規模なNL2ERMデータセットを得る。
NL2ERMは特別な情報抽出(IE)タスクと見なせるので、我々のデータセット上で2つの最先端IEモデルを訓練する。
実験の結果,両モデルとも高い性能を達成し,既存のベースラインを上回った。
関連論文リスト
- Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。
多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。
本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2024-04-26T03:25:35Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。