論文の概要: Uniform-in-Phase-Space Data Selection with Iterative Normalizing Flows
- arxiv url: http://arxiv.org/abs/2112.15446v1
- Date: Tue, 28 Dec 2021 20:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-09 13:22:57.502683
- Title: Uniform-in-Phase-Space Data Selection with Iterative Normalizing Flows
- Title(参考訳): 反復正規化フローを用いた一様位相空間データ選択
- Authors: Malik Hassanaly and Bruce A. Perry and Michael E. Mueller and Shashank
Yellapantula
- Abstract要約: データの位相空間を均一に分散するようにデータポイントを選択する戦略が提案されている。
データセットの小さなサブセットのみを使用して確率マップを構築する場合、レアデータポイントの確率を正確に推定するために反復法が用いられる。
提案フレームワークは、豊富なデータが利用可能であれば、データ効率のよい機械学習を可能にするための実行可能な経路として実証されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improvements in computational and experimental capabilities are rapidly
increasing the amount of scientific data that is routinely generated. In
applications that are constrained by memory and computational intensity,
excessively large datasets may hinder scientific discovery, making data
reduction a critical component of data-driven methods. Datasets are growing in
two directions: the number of data points and their dimensionality. Whereas
data compression techniques are concerned with reducing dimensionality, the
focus here is on reducing the number of data points. A strategy is proposed to
select data points such that they uniformly span the phase-space of the data.
The algorithm proposed relies on estimating the probability map of the data and
using it to construct an acceptance probability. An iterative method is used to
accurately estimate the probability of the rare data points when only a small
subset of the dataset is used to construct the probability map. Instead of
binning the phase-space to estimate the probability map, its functional form is
approximated with a normalizing flow. Therefore, the method naturally extends
to high-dimensional datasets. The proposed framework is demonstrated as a
viable pathway to enable data-efficient machine learning when abundant data is
available. An implementation of the method is available in a companion
repository (https://github.com/NREL/Phase-space-sampling).
- Abstract(参考訳): 計算能力と実験能力の改善は、日常的に生成される科学データの量を増やしている。
メモリと計算強度に制約されたアプリケーションでは、過剰に大きなデータセットが科学的発見を妨げる可能性があるため、データリダクションはデータ駆動手法の重要なコンポーネントとなる。
データセットはデータポイントの数と次元という2つの方向に成長している。
データ圧縮技術は次元を減らすことに関心があるが、ここではデータポイントの数を減らすことに重点を置いている。
データの位相空間を均一に分散するようにデータポイントを選択する戦略が提案されている。
提案したアルゴリズムは、データの確率マップを推定し、それを用いて受容確率を構築する。
確率マップを構成するためにデータセットの小さなサブセットのみを使用する場合、レアなデータポイントの確率を正確に推定するために反復法が用いられる。
位相空間を結合して確率写像を推定する代わりに、その関数形式は正規化フローで近似される。
したがって、この方法は自然に高次元データセットに拡張される。
提案フレームワークは、豊富なデータが利用可能であれば、データ効率のよい機械学習を可能にするための実行可能な経路として実証されている。
このメソッドの実装は、コンパニオンリポジトリ(https://github.com/NREL/Phase-space-sampling)で利用できる。
関連論文リスト
- Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Manifold Hypothesis in Data Analysis: Double Geometrically-Probabilistic
Approach to Manifold Dimension Estimation [92.81218653234669]
本稿では, 多様体仮説の検証と基礎となる多様体次元推定に対する新しいアプローチを提案する。
我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。
実データセットの実験では、2つの手法の組み合わせに基づく提案されたアプローチが強力で効果的であることが示されている。
論文 参考訳(メタデータ) (2021-07-08T15:35:54Z) - Data Augmentation with Manifold Barycenters [8.201100713224003]
データバリーセンタの多様体における利用可能な知識を表現する新しい方法を提案する。
このアプローチをランドマーク検出の問題に適用し、データセット内の利用可能なランドマークデータを強化します。
提案手法は,従来の拡張手法で得られた結果よりも,元のデータ結果に留まらず,品質指標のオーバーフィッティングを低減し,改善する。
論文 参考訳(メタデータ) (2021-04-02T08:07:21Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Kernel Two-Dimensional Ridge Regression for Subspace Clustering [45.651770340521786]
本稿では,2次元データに対する新しいサブスペースクラスタリング手法を提案する。
2Dデータを入力として直接使用するので、表現の学習はデータ固有の構造や関係から恩恵を受ける。
論文 参考訳(メタデータ) (2020-11-03T04:52:46Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z) - Normal-bundle Bootstrap [2.741266294612776]
本稿では,与えられたデータセットの幾何学的構造を保持する新しいデータを生成する手法を提案する。
微分幾何学における多様体学習と概念のアルゴリズムにインスパイアされた本手法は,基礎となる確率測度を余分化測度に分解する。
本手法は, 密度リッジおよび関連統計量の推定に応用し, オーバーフィッティングを低減するためにデータ拡張を行う。
論文 参考訳(メタデータ) (2020-07-27T21:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。