論文の概要: Can Deep Neural Networks Predict Data Correlations from Column Names?
- arxiv url: http://arxiv.org/abs/2107.04553v2
- Date: Mon, 11 Sep 2023 15:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:50:14.055277
- Title: Can Deep Neural Networks Predict Data Correlations from Column Names?
- Title(参考訳): ディープニューラルネットワークは列名からデータ相関を予測できるか?
- Authors: Immanuel Trummer
- Abstract要約: 本稿では,数千のKaggleデータセットを解析し,データ相関分析のための新しいベンチマークを提案する。
このデータを用いて、列名に基づいて相関を予測する言語モデルの研究を行う。
カラム名の長さや単語の比率など、予測の成功に寄与する要因をピンポイントで特定する。
- 参考スコア(独自算出の注目度): 22.051342812106178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent publications suggest using natural language analysis on database
schema elements to guide tuning and profiling efforts. The underlying
hypothesis is that state-of-the-art language processing methods, so-called
language models, are able to extract information on data properties from schema
text.
This paper examines that hypothesis in the context of data correlation
analysis: is it possible to find column pairs with correlated data by analyzing
their names via language models? First, the paper introduces a novel benchmark
for data correlation analysis, created by analyzing thousands of Kaggle data
sets (and available for download). Second, it uses that data to study the
ability of language models to predict correlation, based on column names. The
analysis covers different language models, various correlation metrics, and a
multitude of accuracy metrics. It pinpoints factors that contribute to
successful predictions, such as the length of column names as well as the ratio
of words. Finally, \rev{the study analyzes the impact of column types on
prediction performance.} The results show that schema text can be a useful
source of information and inform future research efforts, targeted at
NLP-enhanced database tuning and data profiling.
- Abstract(参考訳): 最近の出版物では、チューニングとプロファイリングのガイドとして、データベーススキーマ要素の自然言語解析を推奨している。
基礎となる仮説は、最先端の言語処理手法、いわゆる言語モデルがスキーマテキストからデータプロパティに関する情報を抽出できるということである。
本稿では,データ相関分析の文脈において,その仮説を考察する。言語モデルによって,相関データを持つ列ペアを見つけることは可能か?
まず,数千のKaggleデータセット(ダウンロード可能)を分析して作成したデータ相関分析のための新しいベンチマークを紹介する。
第二に、そのデータを使って、列名に基づいて相関を予測する言語モデルの研究を行う。
この分析は、異なる言語モデル、様々な相関メトリクス、および多数の精度メトリクスをカバーする。
カラム名の長さや単語の比率など、予測の成功に寄与する要因をピンポイントで特定する。
最後に、rev{the studyは列型が予測性能に与える影響を分析する。
その結果、スキーマテキストは、nlpエンハンスドデータベースチューニングとデータプロファイリングをターゲットとした、将来の研究活動において有用な情報ソースとなり得ることが示された。
関連論文リスト
- CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Numeracy from Literacy: Data Science as an Emergent Skill from Large
Language Models [0.0]
OpenAIのChatGPTやGPT-3のような大規模言語モデル(LLM)は、リテラシーを数字化するための翻訳課題を探求するためのユニークなテストベッドを提供する。
以前の18ヶ月前から公開されていたトランスフォーマーモデルと1000倍の小さなモデルでは基本的な算術演算が得られなかった。
本研究は, 文の完成から実際の数値理解の領域へ, 次世代の予測が成功するかどうかを考察する。
論文 参考訳(メタデータ) (2023-01-31T03:14:57Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious
Feature-Label Correlation [44.319739489968164]
ディープニューラルネットワークは、タスクを理解するのではなく、意思決定をするためのショートカットとしてデータセットバイアスを取ることが多い。
本研究では,モデルがバイアスデータ分布から学習する単語特徴とラベルとの素早い相関に着目した。
本手法は, 偏りのある例と下級者の偏り度を定量的に評価する学習戦略である。
論文 参考訳(メタデータ) (2022-05-25T09:08:35Z) - Why we should respect analysis results as data [0.0]
臨床研究データの解析も結果の形でデータを生成するのが一般的である。
知見を文脈に組み込んだ分析は科学的研究の基盤となっているが、分析結果はしばしばデータソースとして無視される。
本稿では,分析結果標準と共通データモデルを組み合わせた「一度計算し,何度も使用」する手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T08:34:07Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z) - Can x2vec Save Lives? Integrating Graph and Language Embeddings for
Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。
統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。
これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文 参考訳(メタデータ) (2020-01-04T20:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。