論文の概要: Survive the Schema Changes: Integration of Unmanaged Data Using Deep
Learning
- arxiv url: http://arxiv.org/abs/2010.07586v1
- Date: Thu, 15 Oct 2020 08:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 05:21:18.308429
- Title: Survive the Schema Changes: Integration of Unmanaged Data Using Deep
Learning
- Title(参考訳): スキーマ変更の回避:ディープラーニングを用いた非マネージドデータの統合
- Authors: Zijie Wang, Lixi Zhou, Amitabh Das, Valay Dave, Zhanpeng Jin, Jia Zou
- Abstract要約: 本稿では,深層学習を用いて,スーパーセル表現と摂動の自動注入によるスキーマ変更の自動処理を提案する。
実験の結果,提案手法は実世界の2つのデータ統合シナリオに有効であることが示された。
- 参考スコア(独自算出の注目度): 2.6464841907587004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data is the king in the age of AI. However data integration is often a
laborious task that is hard to automate. Schema change is one significant
obstacle to the automation of the end-to-end data integration process. Although
there exist mechanisms such as query discovery and schema modification language
to handle the problem, these approaches can only work with the assumption that
the schema is maintained by a database. However, we observe diversified schema
changes in heterogeneous data and open data, most of which has no schema
defined. In this work, we propose to use deep learning to automatically deal
with schema changes through a super cell representation and automatic injection
of perturbations to the training data to make the model robust to schema
changes. Our experimental results demonstrate that our proposed approach is
effective for two real-world data integration scenarios: coronavirus data
integration, and machine log integration.
- Abstract(参考訳): データはAI時代の王である。
しかし、データ統合は自動化が難しい面倒な作業であることが多い。
スキーマ変更は、エンドツーエンドのデータ統合プロセスを自動化するための大きな障害のひとつです。
この問題に対処するためのクエリ発見やスキーマ修正言語のようなメカニズムは存在するが、これらのアプローチは、スキーマがデータベースによって維持されているという仮定でのみ機能する。
しかし,我々は異種データとオープンデータにおけるスキーマ変更の多様化を観察し,そのほとんどがスキーマ定義されていない。
本研究では,ディープラーニングを用いて,スーパーセル表現によるスキーマ変更の自動処理と,トレーニングデータへの摂動の自動注入を行い,モデルをスキーマ変更に対して堅牢にする手法を提案する。
実験の結果,提案手法は2つの実世界のデータ統合シナリオ – 新型コロナウイルスデータ統合とマシンログ統合 – に有効であることが示された。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Compound Schema Registry [0.0]
本稿では,複合AIシステムによって促進される一般化スキーマ進化(GSE)の利用を提案する。
このシステムは、スキーマ変更のセマンティクスを解釈するために、LLM(Large Language Models)を使用する。
我々のアプローチには、中間表現としてスキーママッピングを生成するためのタスク固有言語である変換言語(STL)の開発が含まれる。
論文 参考訳(メタデータ) (2024-06-17T05:50:46Z) - Automatic Recommendations for Evolving Relational Databases Schema [0.7412445894287709]
本稿では,データベーススキーマに対する変更計画の影響を計算するメタモデルを提案する。
データベースの詳細な知識がなければ、専門家のデータベースアーキテクトよりも75%少ない時間で同じ変更を実行できることが示されます。
論文 参考訳(メタデータ) (2024-04-12T15:14:38Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.874967598360817]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。
大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
論文 参考訳(メタデータ) (2024-03-03T17:14:40Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Automated Metadata Harmonization Using Entity Resolution & Contextual
Embedding [0.0]
我々は、Cogntive DatabaseのDb2Vec埋め込みアプローチの助けを借りて、このステップの自動化を実演する。
一致したスキーマとは別に、ターゲットデータモデルの正しい存在論的構造も推測できることを実証する。
論文 参考訳(メタデータ) (2020-10-17T02:14:15Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。