論文の概要: STORM: Foundations of End-to-End Empirical Risk Minimization on the Edge
- arxiv url: http://arxiv.org/abs/2006.14554v1
- Date: Thu, 25 Jun 2020 16:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:11:21.876322
- Title: STORM: Foundations of End-to-End Empirical Risk Minimization on the Edge
- Title(参考訳): STORM:エッジ上の実証的リスク最小化の基礎
- Authors: Benjamin Coleman, Gaurav Gupta, John Chen, Anshumali Shrivastava
- Abstract要約: 経験的リスク最小化はおそらく統計学習において最も影響力のある考え方である。
本稿では,経験的リスク最小化のためのオンラインスケッチSTORMを提案する。
- 参考スコア(独自算出の注目度): 42.94785994216686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical risk minimization is perhaps the most influential idea in
statistical learning, with applications to nearly all scientific and technical
domains in the form of regression and classification models. To analyze massive
streaming datasets in distributed computing environments, practitioners
increasingly prefer to deploy regression models on edge rather than in the
cloud. By keeping data on edge devices, we minimize the energy, communication,
and data security risk associated with the model. Although it is equally
advantageous to train models at the edge, a common assumption is that the model
was originally trained in the cloud, since training typically requires
substantial computation and memory. To this end, we propose STORM, an online
sketch for empirical risk minimization. STORM compresses a data stream into a
tiny array of integer counters. This sketch is sufficient to estimate a variety
of surrogate losses over the original dataset. We provide rigorous theoretical
analysis and show that STORM can estimate a carefully chosen surrogate loss for
the least-squares objective. In an exhaustive experimental comparison for
linear regression models on real-world datasets, we find that STORM allows
accurate regression models to be trained.
- Abstract(参考訳): 経験的リスク最小化は、おそらく統計学習において最も影響力のあるアイデアであり、回帰と分類モデルという形で、ほぼ全ての科学および技術領域に適用できる。
分散コンピューティング環境で大規模ストリーミングデータセットを分析するため、実践者はクラウドではなくエッジに回帰モデルをデプロイすることを好むようになった。
データをエッジデバイスに保持することにより、モデルに関連するエネルギー、通信、およびデータのセキュリティリスクを最小限に抑える。
エッジでモデルをトレーニングすることは同じように有利だが、一般的な仮定は、モデルは元々はクラウドでトレーニングされていた、というものである。
そこで我々は,経験的リスク最小化のためのオンラインスケッチSTORMを提案する。
STORMはデータストリームを整数カウンタの小さな配列に圧縮する。
このスケッチは、オリジナルのデータセットに対する様々な代理損失を推定するのに十分である。
厳密な理論的分析を行い、最小二乗目的に対して慎重に選択された代理損失を推定できることを示す。
実世界のデータセット上の線形回帰モデルに対する徹底的な実験的比較では、STORMは正確な回帰モデルを訓練することができる。
関連論文リスト
- Bounding the Excess Risk for Linear Models Trained on Marginal-Preserving, Differentially-Private, Synthetic Data [14.51185186237899]
我々は、実データの代わりに差分プライベート(DP)、合成トレーニングデータを用いてMLモデルを訓練する。
合成データの鍵となる望ましい性質は、元の分布の低次限界を保存する能力である。
我々の主な貢献は、そのような合成データに基づいて訓練された線形モデルの過大な経験的リスクに関する、新しい上下境界である。
論文 参考訳(メタデータ) (2024-02-06T20:24:07Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Deep Regression Unlearning [6.884272840652062]
我々は、プライバシー攻撃に対して堅牢な、一般化された深層回帰学習手法を導入する。
我々は、コンピュータビジョン、自然言語処理、予測アプリケーションのための回帰学習実験を行う。
論文 参考訳(メタデータ) (2022-10-15T05:00:20Z) - Federated Latent Class Regression for Hierarchical Data [5.110894308882439]
フェデレートラーニング(FL)は、多くのエージェントがローカルに保存されたデータを開示することなく、グローバル機械学習モデルのトレーニングに参加することを可能にする。
本稿では,新しい確率モデルである階層潜在クラス回帰(HLCR)を提案し,フェデレートラーニング(FEDHLCR)への拡張を提案する。
我々の推論アルゴリズムはベイズ理論から派生したもので、強い収束保証と過剰適合性を提供する。実験結果から、FEDHLCRは非IIDデータセットにおいても高速収束を提供することが示された。
論文 参考訳(メタデータ) (2022-06-22T00:33:04Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Transfer learning suppresses simulation bias in predictive models built
from sparse, multi-modal data [15.587831925516957]
科学、工学、ビジネスにおける多くの問題は、ごくわずかな観察に基づく予測を必要とする。
堅牢な予測モデルを構築するには、特に設計空間が多次元である場合、これらのスパースデータをシミュレーションデータで拡張する必要がある。
ディープラーニングの最近の開発を組み合わせて、マルチモーダルデータからより堅牢な予測モデルを構築します。
論文 参考訳(メタデータ) (2021-04-19T23:28:32Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。