論文の概要: Testing High-dimensional Multinomials with Applications to Text Analysis
- arxiv url: http://arxiv.org/abs/2301.01381v2
- Date: Fri, 24 Nov 2023 22:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 17:04:11.264530
- Title: Testing High-dimensional Multinomials with Applications to Text Analysis
- Title(参考訳): 高次元多項テストとテキスト解析への応用
- Authors: T. Tony Cai, Zheng Tracy Ke, Paxton Turner
- Abstract要約: テスト統計学は、nullの下で標準正規分布を持つことが示されている。
提案した実験は, パラメータ空間全体にわたって, この最適検出境界を達成できることが示されている。
- 参考スコア(独自算出の注目度): 9.952321247299336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by applications in text mining and discrete distribution inference,
we investigate the testing for equality of probability mass functions of $K$
groups of high-dimensional multinomial distributions. A test statistic, which
is shown to have an asymptotic standard normal distribution under the null, is
proposed. The optimal detection boundary is established, and the proposed test
is shown to achieve this optimal detection boundary across the entire parameter
space of interest. The proposed method is demonstrated in simulation studies
and applied to analyze two real-world datasets to examine variation among
consumer reviews of Amazon movies and diversity of statistical paper abstracts.
- Abstract(参考訳): テキストマイニングと離散分布推定の応用に動機づけられ,高次元多項分布の $k$ 群の確率質量関数の等式について検討した。
ヌルの下での漸近標準正規分布を持つことを示すテスト統計法を提案する。
最適検出境界が確立され、提案試験により、興味のあるパラメータ空間全体にわたってこの最適検出境界が達成されることを示す。
提案手法はシミュレーション研究で実証され,実世界の2つのデータセットを解析し,amazon movieの消費者レビューと統計紙要約の多様性について検討した。
関連論文リスト
- Combine and Conquer: A Meta-Analysis on Data Shift and Out-of-Distribution Detection [30.377446496559635]
本稿では,アウト・オブ・ディストリビューション(OOD)検出スコアをシームレスに組み合わせるための普遍的アプローチを提案する。
我々のフレームワークは、検出スコアにおける将来の発展にとって容易であり、この文脈で意思決定境界を結合する最初の手段である。
論文 参考訳(メタデータ) (2024-06-23T08:16:44Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Collaborative non-parametric two-sample testing [55.98760097296213]
目標は、null仮説の$p_v = q_v$が拒否されるノードを特定することである。
グラフ構造を効率的に活用する非パラメトリックコラボレーティブ2サンプルテスト(CTST)フレームワークを提案する。
提案手法は,f-divergence Estimation, Kernel Methods, Multitask Learningなどの要素を統合する。
論文 参考訳(メタデータ) (2024-02-08T14:43:56Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Differential privacy and robust statistics in high dimensions [49.50869296871643]
高次元Propose-Test-Release (HPTR) は指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。
本論文では,HPTRが複数のシナリオで最適サンプル複雑性をほぼ達成していることを示す。
論文 参考訳(メタデータ) (2021-11-12T06:36:40Z) - Hypothesis Testing for Equality of Latent Positions in Random Graphs [0.2741266294612775]
2つの頂点 $i$ と $j$th が、おそらくスケーリングまで、同じ潜在位置を持つという仮説テストの問題を考える。
グラフの隣接性または正規化ラプラシアンスペクトル埋め込みのいずれかのi$th行とj$th行の間の経験的マハラノビス距離に基づくいくつかのテスト統計について提案する。
これらのテスト統計を用いて、標準ブロックモデルとその次数補正変種を選択する際のモデル選択問題に対処する。
論文 参考訳(メタデータ) (2021-05-23T01:27:23Z) - The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。
このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文 参考訳(メタデータ) (2020-08-28T08:34:28Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。