Fugu-MT 論文翻訳(概要): Survive the Schema Changes: Integration of Unmanaged Data Using Deep Learning

論文の概要: Survive the Schema Changes: Integration of Unmanaged Data Using Deep Learning

arxiv url: http://arxiv.org/abs/2010.07586v1
Date: Thu, 15 Oct 2020 08:10:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 05:21:18.308429
Title: Survive the Schema Changes: Integration of Unmanaged Data Using Deep Learning
Title（参考訳）: スキーマ変更の回避:ディープラーニングを用いた非マネージドデータの統合
Authors: Zijie Wang, Lixi Zhou, Amitabh Das, Valay Dave, Zhanpeng Jin, Jia Zou
Abstract要約: 本稿では,深層学習を用いて,スーパーセル表現と摂動の自動注入によるスキーマ変更の自動処理を提案する。実験の結果,提案手法は実世界の2つのデータ統合シナリオに有効であることが示された。
参考スコア（独自算出の注目度）: 2.6464841907587004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data is the king in the age of AI. However data integration is often a laborious task that is hard to automate. Schema change is one significant obstacle to the automation of the end-to-end data integration process. Although there exist mechanisms such as query discovery and schema modification language to handle the problem, these approaches can only work with the assumption that the schema is maintained by a database. However, we observe diversified schema changes in heterogeneous data and open data, most of which has no schema defined. In this work, we propose to use deep learning to automatically deal with schema changes through a super cell representation and automatic injection of perturbations to the training data to make the model robust to schema changes. Our experimental results demonstrate that our proposed approach is effective for two real-world data integration scenarios: coronavirus data integration, and machine log integration.
Abstract（参考訳）: データはAI時代の王である。しかし、データ統合は自動化が難しい面倒な作業であることが多い。スキーマ変更は、エンドツーエンドのデータ統合プロセスを自動化するための大きな障害のひとつです。この問題に対処するためのクエリ発見やスキーマ修正言語のようなメカニズムは存在するが、これらのアプローチは、スキーマがデータベースによって維持されているという仮定でのみ機能する。しかし,我々は異種データとオープンデータにおけるスキーマ変更の多様化を観察し,そのほとんどがスキーマ定義されていない。本研究では,ディープラーニングを用いて,スーパーセル表現によるスキーマ変更の自動処理と,トレーニングデータへの摂動の自動注入を行い,モデルをスキーマ変更に対して堅牢にする手法を提案する。実験の結果,提案手法は2つの実世界のデータ統合シナリオ – 新型コロナウイルスデータ統合とマシンログ統合 – に有効であることが示された。

関連論文リスト

Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文参考訳（メタデータ） (2025-08-07T16:27:37Z)
AI-assisted JSON Schema Creation and Mapping [0.0]
本稿では,大規模言語モデル(LLM)と決定論的手法を組み合わせて,ユーザによる自然言語入力に基づく生成,修正,スキーママッピングを実現するハイブリッドアプローチを提案する。この作業は、非専門家のための構造化データモデリングとデータ統合に対する障壁を著しく減らします。
論文参考訳（メタデータ） (2025-08-07T09:27:10Z)
Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文参考訳（メタデータ） (2024-10-31T16:34:03Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
Compound Schema Registry [0.0]
本稿では,複合AIシステムによって促進される一般化スキーマ進化(GSE)の利用を提案する。このシステムは、スキーマ変更のセマンティクスを解釈するために、LLM(Large Language Models)を使用する。我々のアプローチには、中間表現としてスキーママッピングを生成するためのタスク固有言語である変換言語(STL)の開発が含まれる。
論文参考訳（メタデータ） (2024-06-17T05:50:46Z)
Automatic Recommendations for Evolving Relational Databases Schema [0.7412445894287709]
本稿では,データベーススキーマに対する変更計画の影響を計算するメタモデルを提案する。データベースの詳細な知識がなければ、専門家のデータベースアーキテクトよりも75%少ない時間で同じ変更を実行できることが示されます。
論文参考訳（メタデータ） (2024-04-12T15:14:38Z)
AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文参考訳（メタデータ） (2024-03-26T04:27:56Z)
ReMatch: Retrieval Enhanced Schema Matching with LLMs [0.874967598360817]
本稿では,検索強化大言語モデル(LLM)を用いたスキーママッチングのためのReMatchという新しい手法を提案する。大規模な実世界のスキーマに対する実験結果から,ReMatchが効果的なマーカであることが示された。
論文参考訳（メタデータ） (2024-03-03T17:14:40Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)
TELESTO: A Graph Neural Network Model for Anomaly Classification in Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。 1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。与えられたデータの次元変化に不変な手法を提案する。
論文参考訳（メタデータ） (2021-02-25T14:24:49Z)
Automated Metadata Harmonization Using Entity Resolution & Contextual Embedding [0.0]
我々は、Cogntive DatabaseのDb2Vec埋め込みアプローチの助けを借りて、このステップの自動化を実演する。一致したスキーマとは別に、ターゲットデータモデルの正しい存在論的構造も推測できることを実証する。
論文参考訳（メタデータ） (2020-10-17T02:14:15Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。