論文の概要: Survive the Schema Changes: Integration of Unmanaged Data Using Deep
Learning
- arxiv url: http://arxiv.org/abs/2010.07586v1
- Date: Thu, 15 Oct 2020 08:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 05:21:18.308429
- Title: Survive the Schema Changes: Integration of Unmanaged Data Using Deep
Learning
- Title(参考訳): スキーマ変更の回避:ディープラーニングを用いた非マネージドデータの統合
- Authors: Zijie Wang, Lixi Zhou, Amitabh Das, Valay Dave, Zhanpeng Jin, Jia Zou
- Abstract要約: 本稿では,深層学習を用いて,スーパーセル表現と摂動の自動注入によるスキーマ変更の自動処理を提案する。
実験の結果,提案手法は実世界の2つのデータ統合シナリオに有効であることが示された。
- 参考スコア(独自算出の注目度): 2.6464841907587004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data is the king in the age of AI. However data integration is often a
laborious task that is hard to automate. Schema change is one significant
obstacle to the automation of the end-to-end data integration process. Although
there exist mechanisms such as query discovery and schema modification language
to handle the problem, these approaches can only work with the assumption that
the schema is maintained by a database. However, we observe diversified schema
changes in heterogeneous data and open data, most of which has no schema
defined. In this work, we propose to use deep learning to automatically deal
with schema changes through a super cell representation and automatic injection
of perturbations to the training data to make the model robust to schema
changes. Our experimental results demonstrate that our proposed approach is
effective for two real-world data integration scenarios: coronavirus data
integration, and machine log integration.
- Abstract(参考訳): データはAI時代の王である。
しかし、データ統合は自動化が難しい面倒な作業であることが多い。
スキーマ変更は、エンドツーエンドのデータ統合プロセスを自動化するための大きな障害のひとつです。
この問題に対処するためのクエリ発見やスキーマ修正言語のようなメカニズムは存在するが、これらのアプローチは、スキーマがデータベースによって維持されているという仮定でのみ機能する。
しかし,我々は異種データとオープンデータにおけるスキーマ変更の多様化を観察し,そのほとんどがスキーマ定義されていない。
本研究では,ディープラーニングを用いて,スーパーセル表現によるスキーマ変更の自動処理と,トレーニングデータへの摂動の自動注入を行い,モデルをスキーマ変更に対して堅牢にする手法を提案する。
実験の結果,提案手法は2つの実世界のデータ統合シナリオ – 新型コロナウイルスデータ統合とマシンログ統合 – に有効であることが示された。
関連論文リスト
- Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - A Hybrid Approach for Smart Alert Generation [28.38472792385083]
異常検出はネットワーク管理において重要な課題である。
現実世界の大規模ネットワークシステムにインテリジェントなアラートシステムをデプロイすることは難しい。
統計モデルとホワイトリスト機構を組み合わせた警告システムのためのハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2023-06-02T14:52:32Z) - The Tensor Data Platform: Towards an AI-centric Database System [6.519203713828565]
AIでも同じことをする時が来た、と私たちは主張します -- しかし、ツイストで!
真のAI中心のデータベースを実現するには、エンジンをリレーショナルからテンソル抽象化に移行する必要がある、と私たちは主張しています。
これにより,(1)画像,ビデオ,音声,テキスト,リレーショナルなどのマルチモーダルデータ処理,(2)HWにおけるイノベーションの豊かさ,(3)自動微分を利用してタスクを実行する「訓練可能な」クエリの新たなクラスを実現する。
論文 参考訳(メタデータ) (2022-11-04T21:26:16Z) - Deep invariant networks with differentiable augmentation layers [87.22033101185201]
データ拡張ポリシーの学習方法は、保持データを必要とし、二段階最適化の問題に基づいている。
我々のアプローチは、現代の自動データ拡張技術よりも訓練が簡単で高速であることを示す。
論文 参考訳(メタデータ) (2022-02-04T14:12:31Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Automated Metadata Harmonization Using Entity Resolution & Contextual
Embedding [0.0]
我々は、Cogntive DatabaseのDb2Vec埋め込みアプローチの助けを借りて、このステップの自動化を実演する。
一致したスキーマとは別に、ターゲットデータモデルの正しい存在論的構造も推測できることを実証する。
論文 参考訳(メタデータ) (2020-10-17T02:14:15Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Petri Nets with Parameterised Data: Modelling and Verification (Extended
Version) [67.99023219822564]
我々は、カタログネットと呼ばれるカラーペトリネットの拡張を紹介し、研究し、このタイプのプロセスを捉える2つの重要な特徴を提供する。
我々は、新しい価値注入が特に扱いにくい機能であることを示し、それを改ざんするための戦略について議論する。
論文 参考訳(メタデータ) (2020-06-11T17:26:08Z) - Siamese Graph Neural Networks for Data Integration [11.41207739004894]
本稿では,リレーショナルデータベースなどの構造化データからエンティティをモデリングし,統合するための一般的なアプローチと,ニュース記事からの自由テキストなどの構造化されていない情報源を提案する。
我々のアプローチは、エンティティ間の関係を明示的にモデル化し、活用することにより、利用可能なすべての情報を使用し、できるだけ多くのコンテキストを保存するように設計されています。
我々は,ビジネスエンティティに関するデータ統合作業における手法の評価を行い,グラフベース表現を使用しない他のディープラーニングアプローチと同様に,標準的なルールベースシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-17T21:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。