論文の概要: Fast MLE Computation for the Dirichlet Multinomial
- arxiv url: http://arxiv.org/abs/1405.0099v2
- Date: Fri, 26 May 2023 18:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 05:33:00.876681
- Title: Fast MLE Computation for the Dirichlet Multinomial
- Title(参考訳): ディリクレ多重項に対する高速MLE計算
- Authors: Max Sklar
- Abstract要約: 本稿では,データセットを1回だけ通過するだけで実行時間を大幅に短縮する修正を提案する。
本稿では,提案アルゴリズムの性能を理論的かつ実証的に解析し,オープンソース実装を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a collection of categorical data, we want to find the parameters of a
Dirichlet distribution which maximizes the likelihood of that data. Newton's
method is typically used for this purpose but current implementations require
reading through the entire dataset on each iteration. In this paper, we propose
a modification which requires only a single pass through the dataset and
substantially decreases running time. Furthermore we analyze both theoretically
and empirically the performance of the proposed algorithm, and provide an open
source implementation.
- Abstract(参考訳): 分類データの集合を考えると、ディリクレ分布のパラメータを見つけ、そのデータの可能性を最大化したい。
Newtonのメソッドは一般的にこの目的で使用されるが、現在の実装では各イテレーションでデータセット全体を読み込む必要がある。
本稿では,データセットを1回のパスで通過し,実行時間を大幅に短縮する修正を提案する。
さらに,提案アルゴリズムの性能を理論的および実証的に分析し,オープンソース実装を提供する。
関連論文リスト
- Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits [7.335578524351567]
データクリーニングは、トレーニングデータセットから有害なインスタンスのセットを取り除き、モデルパフォーマンスを改善することを目的としている。
Data Shapleyは、モデルパフォーマンスに対する各インスタンスのコントリビューションを評価するための、理論的に保証される一般的な方法である。
本稿では、閾値帯域幅アルゴリズムを用いて、低データのShapley値を持つインスタンスのサブセットを高速に識別する反復手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T04:17:48Z) - Interpretable classifiers for tabular data via discretization and
feature selection [4.445953630612019]
表データから人間の解釈可能かつ正確な分類器を即座に計算する手法を提案する。
提案手法は14の実験により実証され,ランダム林,XGBoost,および文献における同じデータセットに対する既存の結果と主に類似したアキュラシーによる結果が得られた。
論文 参考訳(メタデータ) (2024-02-08T13:58:16Z) - Efficient distributed representations beyond negative sampling [4.5687771576879594]
本稿では,分散表現を効率よく学習する手法について述べる。
我々は,sotfmax正規化定数を線形時間で推定でき,効率的な最適化戦略を設計できることを示した。
論文 参考訳(メタデータ) (2023-03-30T15:48:26Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - DPER: Efficient Parameter Estimation for Randomly Missing Data [0.24466725954625884]
本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。
我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
論文 参考訳(メタデータ) (2021-06-06T16:37:48Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Rissanen Data Analysis: Examining Dataset Characteristics via
Description Length [78.42578316883271]
特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。
最小プログラム長は計算不可能であるため,ラベルの最小記述長(MDL)をプロキシとして推定する。
我々は、mdlの父にちなんで、rissanen data analysis (rda) と呼ぶ。
論文 参考訳(メタデータ) (2021-03-05T18:58:32Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - EPEM: Efficient Parameter Estimation for Multiple Class Monotone Missing
Data [3.801859210248944]
本稿では,複数のクラス,モノトン欠落データセットの最大推定値(MLE)を計算するための新しいアルゴリズムを提案する。
計算が正確であるので、我々のEPEMアルゴリズムは、他の計算法と同様に、データを通して複数のイテレーションを必要としない。
論文 参考訳(メタデータ) (2020-09-23T20:07:53Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。