Fugu-MT 論文翻訳(概要): Statistical inference in massive datasets by empirical likelihood

論文の概要: Statistical inference in massive datasets by empirical likelihood

arxiv url: http://arxiv.org/abs/2004.08580v1
Date: Sat, 18 Apr 2020 10:18:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 05:51:19.950017
Title: Statistical inference in massive datasets by empirical likelihood
Title（参考訳）: 経験的確率による大規模データセットの統計的推論
Authors: Xuejun Ma, Shaochen Wang, Wang Zhou
Abstract要約: 本稿では,大規模データセットに対する新しい統計的推論手法を提案する。本手法は分割・対数法と経験的可能性を組み合わせることで, 極めて単純かつ効率的である。
参考スコア（独自算出の注目度）: 1.6887485428725042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a new statistical inference method for massive data sets, which is very simple and efficient by combining divide-and-conquer method and empirical likelihood. Compared with two popular methods (the bag of little bootstrap and the subsampled double bootstrap), we make full use of data sets, and reduce the computation burden. Extensive numerical studies and real data analysis demonstrate the effectiveness and flexibility of our proposed method. Furthermore, the asymptotic property of our method is derived.
Abstract（参考訳）: 本稿では,分割・探索法と経験的確率を組み合わせることで,非常に単純かつ効率的な大規模データセットの統計的推論手法を提案する。 2つの一般的な方法(小さなブートストラップの袋とサブサンプルのダブルブートストラップ)と比較して、データセットをフル活用し、計算負担を軽減する。大規模数値実験と実データ解析により,提案手法の有効性と柔軟性が実証された。さらに,本手法の漸近的性質を導出する。

関連論文リスト

Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文参考訳（メタデータ） (2024-09-26T08:46:48Z)
Estimation of multiple mean vectors in high dimension [4.2466572124753]
我々は,独立標本に基づいて,共通空間上の様々な確率分布の多次元的手段を推定する。我々のアプローチは、これらのサンプルから得られた経験的手段の凸結合による推定器の形成である。
論文参考訳（メタデータ） (2024-03-22T08:42:41Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
A Coreset Learning Reality Check [33.002265576337486]
サブサンプリングアルゴリズムは、巨大なデータセットにモデルを適合させる前に、データサイズを減らすための自然なアプローチである。近年,データ行列から行をサブサンプリングする手法がいくつか提案されている。コアセットおよび最適サブサンプリング文献から引き出されたロジスティック回帰の複数の手法を比較し,その有効性の矛盾を明らかにする。
論文参考訳（メタデータ） (2023-01-15T19:26:17Z)
Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文参考訳（メタデータ） (2021-10-20T12:25:22Z)
Distributionally Robust Learning in Heterogeneous Contexts [29.60681287631439]
異なる文脈で得られたトレーニングデータから学習する問題を検討し、テストデータは分布シフトの影響を受けます。我々は,超過リスクに着目した分散ロバストな手法を開発し,従来の超保守的ミニマックスアプローチよりもパフォーマンスとロバスト性のトレードオフをより適切なものにする。
論文参考訳（メタデータ） (2021-05-18T14:00:34Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文参考訳（メタデータ） (2020-10-20T16:17:47Z)
The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文参考訳（メタデータ） (2020-08-28T08:34:28Z)
Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文参考訳（メタデータ） (2020-05-08T05:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。