論文の概要: Deep Learning to Jointly Schema Match, Impute, and Transform Databases
- arxiv url: http://arxiv.org/abs/2207.03536v1
- Date: Wed, 22 Jun 2022 21:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-17 20:48:17.492301
- Title: Deep Learning to Jointly Schema Match, Impute, and Transform Databases
- Title(参考訳): データベースのマッチング, インプット, 変換を併用したディープラーニング
- Authors: Sandhya Tripathi, Bradley A. Fritz, Mohamed Abdelhack, Michael S.
Avidan, Yixin Chen, and Christopher R. King
- Abstract要約: 複数の原点からのデータを非マップで部分的に重複する機能で結合することは、堅牢で一般化可能なアルゴリズムを開発するための前提条件である。
我々はこの問題に対処する2つの新しい手順を策定する。
2つの電子健康記録データベースを用いた合成および実世界の実験において、我々のアルゴリズムは可変集合に適合する既存のベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 19.200830026362425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An applied problem facing all areas of data science is harmonizing data
sources. Joining data from multiple origins with unmapped and only partially
overlapping features is a prerequisite to developing and testing robust,
generalizable algorithms, especially in health care. We approach this issue in
the common but difficult case of numeric features such as nearly Gaussian and
binary features, where unit changes and variable shift make simple matching of
univariate summaries unsuccessful. We develop two novel procedures to address
this problem. First, we demonstrate multiple methods of "fingerprinting" a
feature based on its associations to other features. In the setting of even
modest prior information, this allows most shared features to be accurately
identified. Second, we demonstrate a deep learning algorithm for translation
between databases. Unlike prior approaches, our algorithm takes advantage of
discovered mappings while identifying surrogates for unshared features and
learning transformations. In synthetic and real-world experiments using two
electronic health record databases, our algorithms outperform existing
baselines for matching variable sets, while jointly learning to impute unshared
or transformed variables.
- Abstract(参考訳): データサイエンスのあらゆる領域に直面する応用問題は、データソースの調和である。
複数の起源のデータを未マッピングで部分的に重複する機能で結合することは、特に医療において、堅牢で一般化可能なアルゴリズムを開発し、テストするための前提条件である。
本稿では,単位変化と変数シフトが単変量要約の単純なマッチングを失敗させるような,ガウス的特徴や二項的特徴などの数値的特徴の一般的なケースにおいて,この問題にアプローチする。
我々はこの問題に対処する2つの新しい手順を開発する。
まず,その特徴を他の特徴と関連付けて「フィンガープリンティング」する複数の方法を示す。
たとえ控えめな事前情報の設定でも、ほとんどの共有フィーチャを正確に識別することができる。
次に,データベース間の翻訳のための深層学習アルゴリズムを提案する。
従来のアプローチとは異なり、アルゴリズムは発見済みのマッピングを活用し、未共有の機能や学習変換のためのサロゲートを識別します。
2つの電子健康記録データベースを用いた人工的および実世界の実験において、我々のアルゴリズムは、変化集合をマッチングするための既存のベースラインよりも優れ、未整形または変換された変数をインプットする共同学習を行う。
関連論文リスト
- Continual Learning for Multimodal Data Fusion of a Soft Gripper [1.0589208420411014]
あるデータモダリティに基づいてトレーニングされたモデルは、異なるモダリティでテストした場合、しばしば失敗する。
異なるデータモダリティを漸進的に学習できる連続学習アルゴリズムを提案する。
我々は、アルゴリズムの有効性を、挑戦的なカスタムマルチモーダルデータセット上で評価する。
論文 参考訳(メタデータ) (2024-09-20T09:53:27Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Combining Varied Learners for Binary Classification using Stacked
Generalization [3.1871776847712523]
本稿では,高次元多嚢胞性卵巣症候群データセットを用いたスタックド一般化を用いたバイナリ分類を行う。
この論文では、受信器動作特性曲線で発見された微妙なトランスグレッションが誤りであることが証明されたことを指摘している。
論文 参考訳(メタデータ) (2022-02-17T21:47:52Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Propositionalization and Embeddings: Two Sides of the Same Coin [0.0]
本稿では,リレーショナル学習におけるデータ処理技術について概説する。
それは命題化とデータ変換のアプローチの埋め込みに焦点を当てている。
統一手法の2つの効率的な実装を提案する。
論文 参考訳(メタデータ) (2020-06-08T08:33:21Z) - Bayesian Meta-Prior Learning Using Empirical Bayes [3.666114237131823]
本稿では,情報的事前の欠如とパラメータ学習率の制御能力に対処する階層的経験ベイズ手法を提案する。
本手法は,データ自体から経験的メタプライヤを学習し,その学習率を1次および2次の特徴の分離に利用する。
スパースデータの最適化は、しばしば課題となるため、私たちの発見は有望です。
論文 参考訳(メタデータ) (2020-02-04T05:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。