論文の概要: Detect, Distill and Update: Learned DB Systems Facing Out of
Distribution Data
- arxiv url: http://arxiv.org/abs/2210.05508v1
- Date: Tue, 11 Oct 2022 15:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:51:10.673003
- Title: Detect, Distill and Update: Learned DB Systems Facing Out of
Distribution Data
- Title(参考訳): Detect, Distill and Update: 分散データから外れたDBシステムの学習
- Authors: Meghdad Kurmanji, Peter Triantafillou
- Abstract要約: ニューラルネットワーク(NN)モデルが異なる分布に従えば,新しいデータを更新する方法について検討する。
問題設定の要件は、学習したDBコンポーネントが古いデータや新しいデータのタスクに対して高い正確性を保証することです。
本稿では,新しいアップアビリティ・フレームワーク(DDUp)を提案する。
- 参考スコア(独自算出の注目度): 5.228711636020664
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine Learning (ML) is changing DBs as many DB components are being
replaced by ML models. One open problem in this setting is how to update such
ML models in the presence of data updates. We start this investigation focusing
on data insertions (dominating updates in analytical DBs). We study how to
update neural network (NN) models when new data follows a different
distribution (a.k.a. it is "out-of-distribution" -- OOD), rendering
previously-trained NNs inaccurate. A requirement in our problem setting is that
learned DB components should ensure high accuracy for tasks on old and new data
(e.g., for approximate query processing (AQP), cardinality estimation (CE),
synthetic data generation (DG), etc.). This paper proposes a novel updatability
framework (DDUp). DDUp can provide updatability for different learned DB system
components, even based on different NNs, without the high costs to retrain the
NNs from scratch. DDUp entails two components: First, a novel, efficient, and
principled statistical-testing approach to detect OOD data. Second, a novel
model updating approach, grounded on the principles of transfer learning with
knowledge distillation, to update learned models efficiently, while still
ensuring high accuracy. We develop and showcase DDUp's applicability for three
different learned DB components, AQP, CE, and DG, each employing a different
type of NN. Detailed experimental evaluation using real and benchmark datasets
for AQP, CE, and DG detail DDUp's performance advantages.
- Abstract(参考訳): 多くのDBコンポーネントがMLモデルに置き換えられているため、機械学習(ML)はDBを変更している。
この設定のオープンな問題のひとつは、データ更新の有無でこのようなMLモデルを更新する方法だ。
本研究はデータ挿入(解析DBの更新)に焦点を当てて開始する。
我々は、ニューラルネットワーク(NN)モデルを、新しいデータが異なる分布(すなわち、"out-of-distribution" -- OOD)に従えば、どのように更新するかを研究する。
我々の問題設定における要件は、学習されたDBコンポーネントが、古いデータや新しいデータ(例えば、近似クエリ処理(AQP)、濃度推定(CE)、合成データ生成(DG)など)のタスクに対して高い精度を確保することである。
).
本稿では,新しいupdatability framework (ddup)を提案する。
DDUpは、異なる学習されたDBシステムコンポーネントに対して、異なるNNに基づいても、スクラッチからNNを再トレーニングするための高いコストなしで、アップデータ機能を提供する。
DDUpには2つのコンポーネントがある: OODデータを検出するための新しい、効率的で、原則化された統計的テストアプローチ。
第2に,知識蒸留によるトランスファー学習の原則に基づく新しいモデル更新アプローチでは,高い精度を確保しつつ,学習したモデルを効率的に更新する。
我々は,3種類の学習DBコンポーネントであるAQP,CE,DGに対してDDUpの適用性を開発し,示す。
AQP、CE、DGの実際のおよびベンチマークデータセットを使用した詳細な実験評価では、DDUpのパフォーマンス上の利点が詳細に説明されている。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Can pre-trained models assist in dataset distillation? [21.613468512330442]
事前訓練されたモデル(PTM)は知識リポジトリとして機能し、元のデータセットからの広範な情報を含んでいる。
PTMは、知識を合成データセットに効果的に転送し、DDを正確に導くことができますか?
我々は,初期化パラメータ,モデルアーキテクチャ,エポックトレーニング,ドメイン知識など,PTMのさまざまな選択肢を体系的に研究する。
論文 参考訳(メタデータ) (2023-10-05T03:51:21Z) - Efficient Model Adaptation for Continual Learning at the Edge [15.334881190102895]
ほとんどの機械学習(ML)システムは、トレーニングとデプロイメントの間、定常的で一致したデータ分散を前提としている。
データ分布は、環境要因、センサー特性、タスク・オブ・関心などの変化により、時間とともに変化することが多い。
本稿では,ドメインシフト下での効率的な連続学習のためのアダプタ・リコンフィグレータ(EAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T23:55:17Z) - Adversarial Learning Networks: Source-free Unsupervised Domain
Incremental Learning [0.0]
非定常環境では、DNNモデルの更新にはパラメータの再トレーニングやモデル微調整が必要である。
DNN分類モデルを更新するための教師なしソースフリー手法を提案する。
既存の手法とは異なり,本手法では過去のトレーニングデータを格納することなく,非定常的なソースとターゲットタスクに対して段階的にDNNモデルを更新することができる。
論文 参考訳(メタデータ) (2023-01-28T02:16:13Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Back to the Source: Diffusion-Driven Test-Time Adaptation [77.4229736436935]
テスト時間適応はテスト入力を利用し、シフトしたターゲットデータ上でテストした場合、ソースデータに基づいてトレーニングされたモデルの精度を向上させる。
代わりに、生成拡散モデルを用いて、すべてのテスト入力をソース領域に向けて投影することで、ターゲットデータを更新する。
論文 参考訳(メタデータ) (2022-07-07T17:14:10Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。