論文の概要: Self-Updating Models with Error Remediation
- arxiv url: http://arxiv.org/abs/2005.09787v1
- Date: Tue, 19 May 2020 23:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:21:28.527445
- Title: Self-Updating Models with Error Remediation
- Title(参考訳): 誤り修復を伴う自己回復モデル
- Authors: Justin E. Doak, Michael R. Smith, Joey B. Ingram
- Abstract要約: 我々は、デプロイされたモデルが新しいデータが利用可能になると、自身を更新するフレームワーク、Self-Updating Models with Error Remediation (SUMER)を提案する。
SUMERの重要な構成要素は、自己ラベル付きデータがエラーの伝播に影響を受けやすいため、エラー修正の概念である。
自己更新モデル(Self-updating Model, SUM)は, 前例のない追加データを提示しても, 自己更新を行おうとしないモデルよりも, 一般的に優れている。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many environments currently employ machine learning models for data
processing and analytics that were built using a limited number of training
data points. Once deployed, the models are exposed to significant amounts of
previously-unseen data, not all of which is representative of the original,
limited training data. However, updating these deployed models can be difficult
due to logistical, bandwidth, time, hardware, and/or data sensitivity
constraints. We propose a framework, Self-Updating Models with Error
Remediation (SUMER), in which a deployed model updates itself as new data
becomes available. SUMER uses techniques from semi-supervised learning and
noise remediation to iteratively retrain a deployed model using
intelligently-chosen predictions from the model as the labels for new training
iterations. A key component of SUMER is the notion of error remediation as
self-labeled data can be susceptible to the propagation of errors. We
investigate the use of SUMER across various data sets and iterations. We find
that self-updating models (SUMs) generally perform better than models that do
not attempt to self-update when presented with additional previously-unseen
data. This performance gap is accentuated in cases where there is only limited
amounts of initial training data. We also find that the performance of SUMER is
generally better than the performance of SUMs, demonstrating a benefit in
applying error remediation. Consequently, SUMER can autonomously enhance the
operational capabilities of existing data processing systems by intelligently
updating models in dynamic environments.
- Abstract(参考訳): 現在、多くの環境は、限られた数のトレーニングデータポイントを使用して構築されたデータ処理と分析に機械学習モデルを採用している。
一度デプロイされると、モデルは大量の未確認データに晒され、そのすべてがオリジナルの限られたトレーニングデータを表しているわけではない。
しかし、ロジスティック、帯域幅、時間、ハードウェア、および/またはデータ感度制約のために、これらのデプロイされたモデルを更新することは困難である。
我々は、デプロイされたモデルが新しいデータが利用可能になると、自身を更新するフレームワーク、Self-Updating Models with Error Remediation (SUMER)を提案する。
SUMERは、半教師付き学習とノイズ修復のテクニックを使用して、新しいトレーニングイテレーションのラベルとして、モデルからのインテリジェントな予測を使用して、デプロイされたモデルを反復的に再トレーニングする。
SUMERの重要な構成要素は、自己ラベル付きデータがエラーの伝播に影響を受けやすいため、エラー修正の概念である。
各種データセットおよびイテレーションにおけるSUMERの使用について検討する。
自己更新モデル(sums)は,事前確認済みのデータで自己更新を行なわないモデルよりも,一般的にパフォーマンスがよいことが分かりました。
この性能ギャップは、初期訓練データ量が限られている場合に強調される。
また、sumerのパフォーマンスはsumのパフォーマンスよりも一般的に優れており、エラー修復を適用する利点を示しています。
これにより、SUMERは動的環境のモデルをインテリジェントに更新することで、既存のデータ処理システムの運用能力を自律的に向上させることができる。
関連論文リスト
- MUSCLE: A Model Update Strategy for Compatible LLM Evolution [29.032461144831053]
大きな言語モデル(LLM)は定期的に更新され、パフォーマンスが向上する。
あるモデルバージョンから別のモデルバージョンへのパフォーマンスのインスタンスレベルの低下(インスタンス回帰)は、特定の言語モデルの能力に関するユーザのメンタルモデルに干渉する可能性がある。
モデル更新におけるインスタンス回帰の程度を最小化するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-07-12T17:12:48Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文 参考訳(メタデータ) (2021-10-13T20:56:05Z) - Exposing Shallow Heuristics of Relation Extraction Models with Challenge
Data [49.378860065474875]
我々は、TACREDで訓練されたSOTA関係抽出(RE)モデルの故障モードを同定する。
トレーニングの例として、いくつかの課題データを追加することで、モデルのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-07T21:17:25Z) - A Simple and Interpretable Predictive Model for Healthcare [0.0]
ディープラーニングモデルは、現在、病気予測のための最先端のソリューションの大半を支配しています。
トレーニング可能なパラメータが数百万に分散したこれらのディープラーニングモデルは、トレーニングとデプロイに大量の計算とデータを必要とします。
EHRデータに適用するための,より単純かつ解釈可能な非深層学習モデルを開発した。
論文 参考訳(メタデータ) (2020-07-27T08:13:37Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。