論文の概要: Neighbor Embedding for High-Dimensional Sparse Poisson Data
- arxiv url: http://arxiv.org/abs/2604.16932v1
- Date: Sat, 18 Apr 2026 09:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.245395
- Title: Neighbor Embedding for High-Dimensional Sparse Poisson Data
- Title(参考訳): 高次元スパースポアソンデータの隣接埋め込み
- Authors: Noga Mudrik, Adam S. Charles,
- Abstract要約: 有用なアプローチは、データを意味のある構造を保存する低次元空間に埋め込むことである。
本稿では、カウントデータのスパース構造を中心に設計された非線形隣接埋め込み法であるp-SNE(Poisson Neighbor Embedding)を提案する。
我々は,p-SNEを合成データ上でテストし,実世界のカウントデータセットにおいて有意義な構造を復元できることを実証する。
- 参考スコア(独自算出の注目度): 8.90311996854267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Across many scientific fields, measurements often represent the number of times an event occurs. For example, a document can be represented by word occurrence counts, neural activity by spike counts per time window, or online communication by daily email counts. These measurements yield high-dimensional count data that often approximate a Poisson distribution, frequently with low rates that produce substantial sparsity and complicate downstream analysis. A useful approach is to embed the data into a low-dimensional space that preserves meaningful structure, commonly termed dimensionality reduction. Yet existing dimensionality reduction methods, including both linear (e.g., PCA) and nonlinear approaches (e.g., t-SNE), often assume continuous Euclidean geometry, thereby misaligning with the discrete, sparse nature of low-rate count data. Here, we propose p-SNE (Poisson Stochastic Neighbor Embedding), a nonlinear neighbor embedding method designed around the Poisson structure of count data, using KL divergence between Poisson distributions to measure pairwise dissimilarity and Hellinger distance to optimize the embedding. We test p-SNE on synthetic Poisson data and demonstrate its ability to recover meaningful structure in real-world count datasets, including weekday patterns in email communication, research area clusters in OpenReview papers, and temporal drift and stimulus gradients in neural spike recordings.
- Abstract(参考訳): 多くの科学分野において、測定は出来事が起こる回数を表すことが多い。
例えば、文書は単語の発生数、時間ウィンドウごとのスパイク数による神経活動、日々のメール数によるオンラインコミュニケーションで表現することができる。
これらの測定は、しばしばポアソン分布を近似する高次元のカウントデータを生成する。
有用なアプローチは、データを低次元空間に埋め込むことで、意味のある構造(一般には次元の減少と呼ばれる)を保存することである。
しかし、線形(eg, PCA)と非線形(eg, t-SNE)の両方を含む既存の次元減少法は、しばしば連続ユークリッド幾何学を仮定し、したがって低レート数データの離散的、スパースな性質と不一致となる。
本稿では、ポアソン分布のKL分散を用いて、ポアソン分布のポアソン構造を中心に設計した非線形隣接埋め込み法であるp-SNE(Poisson Stochastic Neighbor Embedding)を提案する。
我々は合成ポアソンデータを用いてp-SNEを検証し、電子メール通信における平日パターン、OpenReview論文における研究領域クラスタ、ニューラルスパイク記録における時間的ドリフトと刺激勾配を含む実世界のカウントデータセットにおける有意義な構造を復元する能力を示した。
関連論文リスト
- Efficient Covariance Estimation for Sparsified Functional Data [51.69796254617083]
共分散関数のランダムノット(ランダムノット-空間)とB-スプライン(Bspline-Spatial)推定器は計算的に効率的である。
共分散の漸近的なポイントワイドは、ある規則性条件下でのスパース化された個々の軌跡に対して得られる。
論文 参考訳(メタデータ) (2025-11-23T00:50:33Z) - Learning Generalization and Regularization of Nonhomogeneous Temporal Poisson Processes [0.0]
学習一般化問題として,有限および限られたデータからNHPPを推定する問題を定式化する。
NHPPを推定するためには結合法が不可欠であるが,データ量に制限がある場合には過度に適合する恐れがあることが示されている。
本稿では,2つの新しい適応型およびデータ駆動型ビンニング手法を用いたNHPPの正規化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T08:27:50Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Levenshtein Distance Embedding with Poisson Regression for DNA Storage [8.943376293527114]
シークエンス埋め込みは、レヴェンシュテイン距離を埋め込みベクトル間の従来の距離にマッピングする。
本稿では,ポアソン回帰を用いたニューラルネットワークを用いた新しいシーケンス埋め込み手法を提案する。
提案手法の最先端手法と比較して,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-13T07:20:27Z) - Random Smoothing Regularization in Kernel Gradient Descent Learning [24.383121157277007]
古典的ソボレフ空間に属する幅広い基底真理関数を適応的に学習できるランダムなスムーズな正規化のための枠組みを提案する。
我々の推定器は、基礎となるデータの構造的仮定に適応し、次元の呪いを避けることができる。
論文 参考訳(メタデータ) (2023-05-05T13:37:34Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Nonlinear Sufficient Dimension Reduction for
Distribution-on-Distribution Regression [9.086237593805173]
本稿では,予測値と応答値の両方が分布データである場合に,非線形に十分な次元を減少させる新しい手法を提案する。
我々の重要なステップは、計量空間上に普遍カーネル(cc-ユニバーサル)を構築することである。
論文 参考訳(メタデータ) (2022-07-11T04:11:36Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。