論文の概要: Generalized Multivariate Signs for Nonparametric Hypothesis Testing in
High Dimensions
- arxiv url: http://arxiv.org/abs/2107.01103v1
- Date: Fri, 2 Jul 2021 14:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:56:22.247579
- Title: Generalized Multivariate Signs for Nonparametric Hypothesis Testing in
High Dimensions
- Title(参考訳): 高次元非パラメトリック仮説検定のための一般化多変量符号
- Authors: Subhabrata Majumdar, Snigdhansu Chatterjee
- Abstract要約: 一般化符号を用いたテストは、名目上のI型エラー率を維持しつつ、既存のテストよりも高い出力を示すことを示す。
MNIST と Minnesota Twin Studies のゲノムデータの例を示す。
- 参考スコア(独自算出の注目度): 4.24243593213882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional data, where the dimension of the feature space is much
larger than sample size, arise in a number of statistical applications. In this
context, we construct the generalized multivariate sign transformation, defined
as a vector divided by its norm. For different choices of the norm function,
the resulting transformed vector adapts to certain geometrical features of the
data distribution. Building up on this idea, we obtain one-sample and
two-sample testing procedures for mean vectors of high-dimensional data using
these generalized sign vectors. These tests are based on U-statistics using
kernel inner products, do not require prohibitive assumptions, and are amenable
to a fast randomization-based implementation. Through experiments in a number
of data settings, we show that tests using generalized signs display higher
power than existing tests, while maintaining nominal type-I error rates.
Finally, we provide example applications on the MNIST and Minnesota Twin
Studies genomic data.
- Abstract(参考訳): 特徴空間の次元がサンプルサイズよりはるかに大きい高次元のデータは、多くの統計応用において生じる。
この文脈では、一般化された多変量記号変換を構築し、そのノルムによって分割されたベクトルとして定義される。
ノルム関数の異なる選択に対して、変換されたベクトルはデータ分布の幾何学的特徴に適応する。
このアイデアに基づいて、これらの一般化符号ベクトルを用いて、高次元データの平均ベクトルに対する1サンプルおよび2サンプルの試験手順を得る。
これらのテストはカーネル内積を用いたu-統計に基づいており、禁止的な仮定は必要とせず、高速なランダム化ベースの実装に適応できる。
複数のデータ設定の実験を通じて、一般的な符号を用いたテストは、名目上のタイプiエラー率を維持しつつ、既存のテストよりも高いパワーを示すことを示した。
最後に、mnist と minnesota twin studies のゲノムデータに関するサンプルアプリケーションを提供する。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Testing multivariate normality by testing independence [0.0]
本稿では,Kac-Bernsteinの特性に基づく簡易な多変量正規化テストを提案する。
また,高次元データに対して,提案手法は代替手法よりも効率的である可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-20T07:19:52Z) - On Extreme Value Asymptotics of Projected Sample Covariances in High
Dimensions with Applications in Finance and Convolutional Networks [0.0]
ガムベル型極値が線形時系列フレームワーク内で真であることを示す。
適用例として、慣用的リスクに関して、長期限定の中間分散ポートフォリオ最適化とサブポートフォリオ分析について論じる。
論文 参考訳(メタデータ) (2023-10-12T09:17:46Z) - A framework for paired-sample hypothesis testing for high-dimensional
data [7.400168551191579]
我々は、各一対のインスタンスを接続するラインセグメントの双分割超平面によって定義される決定規則によって、スコアリング関数が生成できるという考えを提唱した。
まず、各一対の双分極超平面とホッジス・リーマン推定器から導出される集約規則を推定する。
論文 参考訳(メタデータ) (2023-09-28T09:17:11Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - Toward Learning Robust and Invariant Representations with Alignment
Regularization and Data Augmentation [76.85274970052762]
本論文はアライメント正則化の選択肢の増大を動機としている。
我々は、ロバスト性および不変性の次元に沿って、いくつかの人気のある設計選択のパフォーマンスを評価する。
我々はまた、現実的と考える仮定の下で経験的な研究を補完するために、アライメント正則化の挙動を正式に分析する。
論文 参考訳(メタデータ) (2022-06-04T04:29:19Z) - Estimating Graph Dimension with Cross-validated Eigenvalues [5.0013150536632995]
応用統計学では、潜在次元の数を推定したり、クラスターの数を推定することは基本的な問題であり、繰り返し発生する問題である。
この問題に対するクロスバリデーションな固有値アプローチを提供する。
我々の手順は、すべての$k$次元を推定できるシナリオにおいて、一貫して$k$を推定することを証明する。
論文 参考訳(メタデータ) (2021-08-06T23:52:30Z) - Double Generative Adversarial Networks for Conditional Independence
Testing [8.359770027722275]
高次元条件独立テストは統計学と機械学習の重要な構成要素である。
本稿では,GAN(Double Generative Adversarial Network)に基づく推論手法を提案する。
論文 参考訳(メタデータ) (2020-06-03T16:14:15Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。