論文の概要: Asynchronous and Distributed Data Augmentation for Massive Data Settings
- arxiv url: http://arxiv.org/abs/2109.08969v1
- Date: Sat, 18 Sep 2021 17:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:08:14.297101
- Title: Asynchronous and Distributed Data Augmentation for Massive Data Settings
- Title(参考訳): 大規模データ設定のための非同期および分散データ拡張
- Authors: Jiayuan Zhou, Kshitij Khare, and Sanvesh Srivastava
- Abstract要約: データ拡張(DA)アルゴリズムは、その単純さからベイズ推論に広く用いられている。
しかし、大規模なデータ設定では、DAアルゴリズムはあらゆるイテレーションで全データを通過するため、極めて遅い。
我々は、非同期および分散コンピューティングを利用する任意のDAを拡張するためのフレームワークを開発する。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation (DA) algorithms are widely used for Bayesian inference due
to their simplicity. In massive data settings, however, DA algorithms are
prohibitively slow because they pass through the full data in any iteration,
imposing serious restrictions on their usage despite the advantages. Addressing
this problem, we develop a framework for extending any DA that exploits
asynchronous and distributed computing. The extended DA algorithm is indexed by
a parameter $r \in (0, 1)$ and is called Asynchronous and Distributed (AD) DA
with the original DA as its parent. Any ADDA starts by dividing the full data
into $k$ smaller disjoint subsets and storing them on $k$ processes, which
could be machines or processors. Every iteration of ADDA augments only an
$r$-fraction of the $k$ data subsets with some positive probability and leaves
the remaining $(1-r)$-fraction of the augmented data unchanged. The parameter
draws are obtained using the $r$-fraction of new and $(1-r)$-fraction of old
augmented data. For many choices of $k$ and $r$, the fractional updates of ADDA
lead to a significant speed-up over the parent DA in massive data settings, and
it reduces to the distributed version of its parent DA when $r=1$. We show that
the ADDA Markov chain is Harris ergodic with the desired stationary
distribution under mild conditions on the parent DA algorithm. We demonstrate
the numerical advantages of the ADDA in three representative examples
corresponding to different kinds of massive data settings encountered in
applications. In all these examples, our DA generalization is significantly
faster than its parent DA algorithm for all the choices of $k$ and $r$. We also
establish geometric ergodicity of the ADDA Markov chain for all three examples,
which in turn yields asymptotically valid standard errors for estimates of
desired posterior quantities.
- Abstract(参考訳): データ拡張(DA)アルゴリズムは、その単純さからベイズ推論に広く用いられている。
しかし、大規模なデータ設定では、DAアルゴリズムはあらゆるイテレーションで全データを通過するため、その利点にもかかわらず、利用に深刻な制限を課すため、極めて遅い。
この問題に対処するため,非同期および分散コンピューティングを利用したDAの拡張フレームワークを開発した。
拡張DAアルゴリズムはパラメータ $r \in (0, 1)$ でインデックスされ、元のDAを親として Asynchronous and Distributed (AD) DA と呼ばれる。
任意のADDAは、全データを$k$小さな不整合サブセットに分割し、マシンまたはプロセッサである$k$プロセスに保存することから始まる。
addaの各イテレーションは、何らかの正の確率で$k$データサブセットの$r$-fractionのみを補強し、拡張データの残りの$(1-r)$-fractionを変更せずに残します。
パラメータドローは、newの$r$-fractionとold augmented dataの$(1-r)$fractionを用いて得られる。
多くの$k$と$r$の選択肢において、ADDAの分数的な更新は、大規模なデータ設定において親DAよりも大幅にスピードアップし、$r=1$のときに親DAの分散バージョンに還元される。
我々は,ADDAマルコフ連鎖がハリスエルゴードであり,親DAアルゴリズムの軽度条件下で所望の定常分布を持つことを示す。
我々はADDAの数値的な利点をアプリケーションで遭遇する様々な種類の大規模データ設定に対応する3つの代表的な例で示す。
これらすべての例において、我々のDA一般化は、$k$と$r$のすべての選択に対して、親DAアルゴリズムよりもはるかに高速である。
また、3つの例すべてに対してADDAマルコフ連鎖の幾何学的エルゴディディティを確立し、それによって所望の余剰量の推定に対する漸近的に有効な標準誤差が得られる。
関連論文リスト
- Information Theoretically Optimal Sample Complexity of Learning Dynamical Directed Acyclic Graphs [1.433758865948252]
直交非巡回グラフ(DAG)上での線形力学系(LDS)の相互作用や依存性を学習する際の最適なサンプル複雑性について検討する。
静的DAG設定にインスパイアされ,観測時系列のPSD行列に基づくメトリックとアルゴリズムが提案され,DDAGを再構築する。
論文 参考訳(メタデータ) (2023-08-31T17:03:34Z) - Learning DAGs from Data with Few Root Causes [6.747934699209742]
線形構造方程式モデル(SEM)により生成されたデータから有向非巡回グラフ(DAG)を学習するための新しい視点とアルゴリズムを提案する。
根本原因がほとんどないデータに対して,従来のDAG学習法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-25T11:05:36Z) - A Scale-Invariant Sorting Criterion to Find a Causal Order in Additive
Noise Models [49.038420266408586]
分散の増加による変数のソートは、しばしば因果順序に近い順序になることを示す。
本稿ではR2$-SortnRegressと呼ばれる,高いR2$-sortabilityを利用する効率的なベースラインアルゴリズムを提案する。
その結果,因果発見に関連するデータ生成プロセスの仮定として,R2$-sortabilityが高額であることが判明した。
論文 参考訳(メタデータ) (2023-03-31T17:05:46Z) - Estimation-of-Distribution Algorithms for Multi-Valued Decision
Variables [10.165640083594573]
我々は、遺伝的ドリフトの既知の定量的解析を、多値変数の分布推定アルゴリズムに拡張する。
我々の研究は、バイナリEDAの理解が自然に多値設定にまで拡張されていることを示している。
論文 参考訳(メタデータ) (2023-02-28T08:52:40Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Data-Efficient and Interpretable Tabular Anomaly Detection [54.15249463477813]
本稿では,ホワイトボックスモデルクラスである一般化付加モデルを適用し,異常を検出する新しいフレームワークを提案する。
さらに、提案フレームワークであるDIADは、ラベル付きデータの少量を組み込んで、半教師付き設定における異常検出性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2022-03-03T22:02:56Z) - PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning
Method [49.93717224277131]
PEriodically Restarted-ETD(PEriodically Restarted-ETD)と呼ばれる新しいETD手法を提案する。
PER-ETD は ETD と同じ所望の固定点に収束するが, 指数的なサンプルの複雑性は向上する。
論文 参考訳(メタデータ) (2021-10-13T17:40:12Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Unsupervised Data Augmentation with Naive Augmentation and without
Unlabeled Data [40.82826366059613]
Unsupervised Data Augmentation (UDA) は、モデルの予測の違いを解析するために一貫性損失を適用する半教師付き手法である。
本稿では,UDAを再検討し,その有効性を示す。
一貫性の喪失を適用することで、ラベルのないデータなしで有意義な利益が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-22T18:01:51Z) - The Univariate Marginal Distribution Algorithm Copes Well With Deception
and Epistasis [9.853329403413701]
陰性な発見はUMDAのパラメータの不運な選択によって引き起こされることを示す。
この結果から,UMDAは進化的アルゴリズムよりも局所最適に対処できることが示唆された。
論文 参考訳(メタデータ) (2020-07-16T12:07:09Z) - Rethinking Distributional Matching Based Domain Adaptation [111.15106414932413]
ドメイン適応(DA)は、ラベル付きソースドメインでトレーニングされた予測モデルをラベル付きターゲットドメインに転送するテクニックである。
最も一般的なDAアルゴリズムは、分散マッチング(DM)に基づいている。
本稿では,まずDMに基づく手法の限界を体系的に分析し,さらに現実的なドメインシフトを持つ新しいベンチマークを構築する。
論文 参考訳(メタデータ) (2020-06-23T21:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。