論文の概要: Can Deep Neural Networks Predict Data Correlations from Column Names?
- arxiv url: http://arxiv.org/abs/2107.04553v1
- Date: Fri, 9 Jul 2021 17:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 15:39:48.969898
- Title: Can Deep Neural Networks Predict Data Correlations from Column Names?
- Title(参考訳): ディープニューラルネットワークは列名からデータ相関を予測できるか?
- Authors: Immanuel Trummer
- Abstract要約: 約4,000データセットから抽出した約12万列の相関関係を解析した。
予測には,最近提案されたTransformerアーキテクチャに基づく事前学習言語モデルを利用する。
多くのシナリオにおいて、ディープニューラルネットワークは相対的に高い精度で相関を予測することができる。
- 参考スコア(独自算出の注目度): 10.725748279715068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For humans, it is often possible to predict data correlations from column
names. We conduct experiments to find out whether deep neural networks can
learn to do the same. If so, e.g., it would open up the possibility of tuning
tools that use NLP analysis on schema elements to prioritize their efforts for
correlation detection.
We analyze correlations for around 120,000 column pairs, taken from around
4,000 data sets. We try to predict correlations, based on column names alone.
For predictions, we exploit pre-trained language models, based on the recently
proposed Transformer architecture. We consider different types of correlations,
multiple prediction methods, and various prediction scenarios. We study the
impact of factors such as column name length or the amount of training data on
prediction accuracy. Altogether, we find that deep neural networks can predict
correlations with a relatively high accuracy in many scenarios (e.g., with an
accuracy of 95% for long column names).
- Abstract(参考訳): 人間の場合、コラム名からデータ相関を予測することがしばしば可能である。
我々は、ディープニューラルネットワークが同じことを学べるかどうかを調べる実験を行う。
もしそうなら、例えば、nlp分析をスキーマ要素に使用するチューニングツールが、相関検出への取り組みを優先する可能性を開くだろう。
約4,000データセットから抽出した約12万列の相関関係を解析した。
カラム名のみに基づいて相関を予測しようとする。
予測には,最近提案されたTransformerアーキテクチャに基づく事前学習言語モデルを利用する。
異なるタイプの相関、複数の予測方法、および様々な予測シナリオを検討する。
カラム名の長さやトレーニングデータの量などの要因が予測精度に与える影響について検討した。
全体として、ディープニューラルネットワークは、多くのシナリオにおいて比較的高い精度で相関を予測できる(例えば、長いカラム名に対して95%の精度で)。
関連論文リスト
- CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Numeracy from Literacy: Data Science as an Emergent Skill from Large
Language Models [0.0]
OpenAIのChatGPTやGPT-3のような大規模言語モデル(LLM)は、リテラシーを数字化するための翻訳課題を探求するためのユニークなテストベッドを提供する。
以前の18ヶ月前から公開されていたトランスフォーマーモデルと1000倍の小さなモデルでは基本的な算術演算が得られなかった。
本研究は, 文の完成から実際の数値理解の領域へ, 次世代の予測が成功するかどうかを考察する。
論文 参考訳(メタデータ) (2023-01-31T03:14:57Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious
Feature-Label Correlation [44.319739489968164]
ディープニューラルネットワークは、タスクを理解するのではなく、意思決定をするためのショートカットとしてデータセットバイアスを取ることが多い。
本研究では,モデルがバイアスデータ分布から学習する単語特徴とラベルとの素早い相関に着目した。
本手法は, 偏りのある例と下級者の偏り度を定量的に評価する学習戦略である。
論文 参考訳(メタデータ) (2022-05-25T09:08:35Z) - Why we should respect analysis results as data [0.0]
臨床研究データの解析も結果の形でデータを生成するのが一般的である。
知見を文脈に組み込んだ分析は科学的研究の基盤となっているが、分析結果はしばしばデータソースとして無視される。
本稿では,分析結果標準と共通データモデルを組み合わせた「一度計算し,何度も使用」する手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T08:34:07Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z) - Can x2vec Save Lives? Integrating Graph and Language Embeddings for
Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。
統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。
これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文 参考訳(メタデータ) (2020-01-04T20:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。