論文の概要: DPER: Efficient Parameter Estimation for Randomly Missing Data
- arxiv url: http://arxiv.org/abs/2106.05190v1
- Date: Sun, 6 Jun 2021 16:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:16:21.802884
- Title: DPER: Efficient Parameter Estimation for Randomly Missing Data
- Title(参考訳): DPER:ランダム欠落データの効率的なパラメータ推定
- Authors: Thu Nguyen, Khoi Minh Nguyen-Duy, Duy Ho Minh Nguyen, Binh T. Nguyen,
and Bruce Alan Wade
- Abstract要約: 本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。
我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
- 参考スコア(独自算出の注目度): 0.24466725954625884
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The missing data problem has been broadly studied in the last few decades and
has various applications in different areas such as statistics or
bioinformatics. Even though many methods have been developed to tackle this
challenge, most of those are imputation techniques that require multiple
iterations through the data before yielding convergence. In addition, such
approaches may introduce extra biases and noises to the estimated parameters.
In this work, we propose novel algorithms to find the maximum likelihood
estimates (MLEs) for a one-class/multiple-class randomly missing data set under
some mild assumptions. As the computation is direct without any imputation, our
algorithms do not require multiple iterations through the data, thus promising
to be less time-consuming than other methods while maintaining superior
estimation performance. We validate these claims by empirical results on
various data sets of different sizes and release all codes in a GitHub
repository to contribute to the research community related to this problem.
- Abstract(参考訳): データ不足問題は過去数十年にわたって広く研究され、統計学やバイオインフォマティクスなど様々な分野に応用されている。
この課題に取り組むために多くの方法が開発されているが、そのほとんどは収束する前にデータを通して複数のイテレーションを必要とするインプテーション技術である。
さらに、そのようなアプローチは推定パラメータに余分なバイアスやノイズをもたらす可能性がある。
本研究では,軽度仮定の下で1クラス/複数クラスのランダムに欠落したデータセットの最大推定値(mles)を求める新しいアルゴリズムを提案する。
計算は命令を使わずに直接的に行われるため、我々のアルゴリズムは複数の反復をデータを通して必要とせず、優れた推定性能を維持しつつ、他の手法よりも時間を要することを約束する。
このような主張を,さまざまなサイズのデータセット上で実証的な結果として検証し,githubリポジトリ内のすべてのコードをリリースして,この問題に関連する研究コミュニティに寄与する。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Numerical Data Imputation for Multimodal Data Sets: A Probabilistic
Nearest-Neighbor Kernel Density Approach [2.750124853532831]
近辺推定(k$NN)と密度推定をガウスカーネル(KDE)で組み合わせたデータ計算手法を提案する。
提案手法は, 複雑なデータ構造に対処し, より低いデータ計算誤差を発生し, 確率的推定を現在の手法よりも高い確率で行うことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T12:55:58Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - An Application of a Multivariate Estimation of Distribution Algorithm to
Cancer Chemotherapy [59.40521061783166]
癌に対する化学療法治療は、多数の相互作用する変数と制約を持つ複雑な最適化問題である。
より洗練されたアルゴリズムは、このような複雑な問題に対してより良いパフォーマンスをもたらすことが示される。
我々は、この問題における多数の相互作用によって、より洗練されたアルゴリズムが妨げられていることが原因であると仮定する。
論文 参考訳(メタデータ) (2022-05-17T15:28:46Z) - Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - Multilevel Stochastic Optimization for Imputation in Massive Medical Data Records [6.711824170437793]
我々は最近開発された多段階計算最適化手法を医療記録の計算問題に適用した。
その結果, マルチレベル手法は現在の手法よりも大幅に優れ, 数値的に堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-10-19T01:14:08Z) - EPEM: Efficient Parameter Estimation for Multiple Class Monotone Missing
Data [3.801859210248944]
本稿では,複数のクラス,モノトン欠落データセットの最大推定値(MLE)を計算するための新しいアルゴリズムを提案する。
計算が正確であるので、我々のEPEMアルゴリズムは、他の計算法と同様に、データを通して複数のイテレーションを必要としない。
論文 参考訳(メタデータ) (2020-09-23T20:07:53Z) - The Integrity of Machine Learning Algorithms against Software Defect
Prediction [0.0]
本報告では,Liangらが開発したオンラインシーケンス・エクストリーム・ラーニング・マシン(OS-ELM)の性能を解析する。
OS-ELMは従来のディープニューラルネットワークよりも高速にトレーニングし、常にグローバルな最適解に収束する。
この分析は、NASAグループが実施する3つのプロジェクトKC1、PC4、PC3で実施される。
論文 参考訳(メタデータ) (2020-09-05T17:26:56Z) - Optimization for Supervised Machine Learning: Randomized Algorithms for
Data and Parameters [10.279748604797911]
機械学習とデータサイエンスの主な問題は、最適化問題として日常的にモデル化され、最適化アルゴリズムによって解決される。
データ量の増加と、これらの不条件最適化タスクを定式化するために使用される統計モデルのサイズと複雑さにより、これらの課題に対処できる新しい効率的なアルゴリズムが必要である。
この論文では,これらの課題をそれぞれ異なる方法で処理する。ビッグデータ問題に効率的に対処するために,各イテレーションでトレーニングデータの小さなランダムサブセットのみを検査する新しい手法を開発する。
大きなモデル問題に対処するために、イテレーション毎に更新されるメソッドを開発します。
論文 参考訳(メタデータ) (2020-08-26T21:15:18Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Improving a State-of-the-Art Heuristic for the Minimum Latency Problem
with Data Mining [69.00394670035747]
ハイブリッドメタヒューリスティックスは、オペレーション研究のトレンドとなっている。
成功例は、Greedy Randomized Adaptive Search Procedures (GRASP)とデータマイニング技術を組み合わせたものだ。
論文 参考訳(メタデータ) (2019-08-28T13:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。