論文の概要: Choosing the number of factors in factor analysis with incomplete data
via a hierarchical Bayesian information criterion
- arxiv url: http://arxiv.org/abs/2204.09086v1
- Date: Tue, 19 Apr 2022 18:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:25:58.479593
- Title: Choosing the number of factors in factor analysis with incomplete data
via a hierarchical Bayesian information criterion
- Title(参考訳): 階層ベイズ情報基準による不完全データを用いた因子分析における因子数の選択
- Authors: Jianhua Zhao and Changchun Shang and Shulan Li and Ling Xin and Philip
L.H. Yu
- Abstract要約: 完全なサンプルサイズ($N$)に基づくペナルティ用語は、完全なデータケースか不完全なデータケースかに関わらず、同じである。
不完全なデータの場合、変数$i$に対して$N_iN$しか観測できない。
不完全データを用いた因子分析のための階層的BIC (hierarchical BIC) と呼ばれる新しい基準を提案する。
- 参考スコア(独自算出の注目度): 0.5249805590164901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bayesian information criterion (BIC), defined as the observed data log
likelihood minus a penalty term based on the sample size $N$, is a popular
model selection criterion for factor analysis with complete data. This
definition has also been suggested for incomplete data. However, the penalty
term based on the `complete' sample size $N$ is the same no matter whether in a
complete or incomplete data case. For incomplete data, there are often only
$N_i<N$ observations for variable $i$, which means that using the `complete'
sample size $N$ implausibly ignores the amounts of missing information inherent
in incomplete data. Given this observation, a novel criterion called
hierarchical BIC (HBIC) for factor analysis with incomplete data is proposed.
The novelty is that it only uses the actual amounts of observed information,
namely $N_i$'s, in the penalty term. Theoretically, it is shown that HBIC is a
large sample approximation of variational Bayesian (VB) lower bound, and BIC is
a further approximation of HBIC, which means that HBIC shares the theoretical
consistency of BIC. Experiments on synthetic and real data sets are conducted
to access the finite sample performance of HBIC, BIC, and related criteria with
various missing rates. The results show that HBIC and BIC perform similarly
when the missing rate is small, but HBIC is more accurate when the missing rate
is not small.
- Abstract(参考訳): ベイズ情報基準 (bayesian information criterion, bic) は、サンプルサイズ$n$に基づくペナルティ項を最小化する観測データログ可能性として定義され、完全なデータを持つ因子分析のための一般的なモデル選択基準である。
この定義は不完全なデータに対しても提案されている。
しかし 'complete' サンプルサイズ$N$ に基づくペナルティ用語は、完全なデータケースか不完全なデータケースかに関わらず、同じである。
非完全データの場合、変数 $i$ に対して $N_i<N$ しか観測できないため、'complete' サンプルサイズ $N$ は不完全データ固有の欠落情報の量を無視している。
この結果から,不完全データを用いた因子分析のための階層的BIC (hierarchical BIC) と呼ばれる新しい基準を提案する。
新規性は、ペナルティ用語において観測された情報の実際の量、すなわち$N_i$sのみを使用することである。
理論的には、HBICは変分ベイズ(VB)下界の大規模なサンプル近似であり、BICはHBICのさらなる近似であり、これはHBICがBICの理論的一貫性を共有することを意味する。
HBIC, BICおよび関連基準の有限サンプル性能に, 種々の欠落率でアクセスするために, 合成および実データ集合の実験を行った。
その結果、HBICとBICは、欠落率が小さい場合にも同様に動作するが、欠落率が小さい場合にはHBICの方が正確であることがわかった。
関連論文リスト
- Minimax Hypothesis Testing for the Bradley-Terry-Luce Model [6.5990719141691825]
ブラッドリー・テリー・ルーシ(Bradley-Terry-Luce、BTL)モデルは、アイテムやエージェントのコレクションをランク付けする最も広く使われているモデルの一つである。
与えられたペア比較データセットとエージェントペアあたりの$k$の比較が、基礎となるBTLモデルに由来するかどうかを判定する仮説テストを提案する。
論文 参考訳(メタデータ) (2024-10-10T20:28:05Z) - On uncertainty-penalized Bayesian information criterion [1.1049608786515839]
本研究では,不確実性補償情報基準(UBIC)を用いることは,従来のBICと等価であることを示す。
その結果,UBIC と BIC の特性は無関心に保たれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-23T13:59:11Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Invariant Causal Prediction with Local Models [52.161513027831646]
観測データから対象変数の因果親を特定するタスクについて検討する。
L-ICP(textbfL$ocalized $textbfI$nvariant $textbfCa$usal $textbfP$rediction)と呼ばれる実用的手法を導入する。
論文 参考訳(メタデータ) (2024-01-10T15:34:42Z) - Gibbs-Based Information Criteria and the Over-Parameterized Regime [20.22034560278484]
二重発散は、補間しきい値を超えた学習アルゴリズムのテスト損失の予期せぬ減少を指す。
我々はこれらの分析を,情報リスク最小化フレームワークを用いて更新し,Gibsアルゴリズムが学習したモデルに対して,Akaike Information Criterion(AIC)とBayesian Information Criterion(BIC)を提供する。
論文 参考訳(メタデータ) (2023-06-08T22:54:48Z) - Learning versus Refutation in Noninteractive Local Differential Privacy [133.80204506727526]
非対話的局所差分プライバシー(LDP)における2つの基本的な統計課題について検討する。
本研究の主な成果は,非対話型LDPプロトコルにおけるPAC学習の複雑さの完全な評価である。
論文 参考訳(メタデータ) (2022-10-26T03:19:24Z) - How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。
ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文 参考訳(メタデータ) (2022-10-15T04:11:56Z) - The Performance of the MLE in the Bradley-Terry-Luce Model in
$\ell_{\infty}$-Loss and under General Graph Topologies [76.61051540383494]
我々はBradley-Terry-Luceモデルの$ell_infty$推定誤差に関する新しい一般上限を導出する。
導出された境界は良好に機能し、場合によっては既知の結果よりもシャープであることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:46:35Z) - Causal Inference With Selectively Deconfounded Data [22.624714904663424]
我々は、平均治療効果(ATE)を推定する際に、大規模な統合された観測データセット(共同設立者なし)と小さな非統合された観測データセット(共同設立者明らかに)を組み込むことの利点を検討する。
理論的には, 待ち行列を所望の精度で推定するために必要なデコンストラクタデータの量を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-25T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。